- חשיבות ההומוצססטיות
- הומוסקטסטיות מול הטרוסצסטסטיות
- בדיקות הומוצדסטיות
- משתנים סטנדרטיים
- בדיקות לא גרפיות להומוסקטסטיות
- הפניות
הומוסקדסטיות במודל סטטיסטי חזוי מתרחשת אם כל הקבוצות נתונים של תצפיות אחד או יותר, את השונות (או עצמאי) דפוס עם ביחס המשתנים המסבירים נשארים קבועים.
מודל רגרסיה יכול להיות הומוסקוסטסטי או לא, ובמקרה זה אנו מדברים על הטרוסצסטיות.
איור 1. איור 1. חמש מערכות נתונים והתאמת רגרסיה של הסט. השונות ביחס לערך החזוי זהה בכל קבוצה. (upav-biblioteca.org)
מודל רגרסיה סטטיסטי של מספר משתנים עצמאיים נקרא homoscedastic, רק אם שונות השגיאה של המשתנה החזוי (או סטיית התקן של המשתנה התלוי) נותרה אחידה עבור קבוצות שונות של ערכים של המשתנים המסבירים או העצמאיים.
בחמש קבוצות הנתונים באיור 1, השונות בכל קבוצה חושבה, ביחס לערך המוערך על ידי הרגרסיה, והתברר שהיא זהה בכל קבוצה. ההנחה היא כי הנתונים עוקבים אחר התפוצה הרגילה.
ברמה הגרפית זה אומר שהנקודות מפוזרות באותה מידה או מפוזרות סביב הערך שחזה התאמת הרגרסיה, וכי למודל הרגרסיה יש אותה שגיאה ותוקף לטווח של משתנה ההסבר.
חשיבות ההומוצססטיות
כדי להמחיש את חשיבות ההומוססטסטיות בסטטיסטיקה חזויה, יש צורך בניגוד לתופעה ההפוכה, הטרוססטסטיות.
הומוסקטסטיות מול הטרוסצסטסטיות
במקרה של איור 1, בו יש הומוסצסטיות, נכון ש:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)
כאשר Var ((yi-Yi); Xi) מייצג את השונות, הצמד (xi, yi) מייצג נתונים מקבוצה i, ואילו Yi הוא הערך שחזוי הרגרסיה לערך הממוצע Xi של הקבוצה. השונות של נתוני ה- n מקבוצה i מחושבת כדלקמן:
Var ((yi-yi); xi) = ∑j (yij - Yi) ^ 2 / n
נהפוך הוא, כאשר מתרחשת הטרוסצסטסטיות, ייתכן שמודל הרגרסיה אינו תקף לכל האזור בו הוא חושב. איור 2 מציג דוגמא למצב זה.
תרשים 2. קבוצת נתונים המראים הטרוסצסטיות. (פירוט משלו)
איור 2 מייצג שלוש קבוצות נתונים והתאמת הסט באמצעות רגרסיה לינארית. יש לציין כי הנתונים בקבוצה השנייה והשלישית מפוזרים יותר מאשר בקבוצה הראשונה. הגרף באיור 2 מציג גם את הערך הממוצע של כל קבוצה ואת סרגל השגיאות שלה ± σ, עם סטיית התקן σ של כל קבוצת נתונים. יש לזכור כי סטיית התקן σ היא השורש הריבועי של השונות.
ברור שבמקרה של הטרוסצסטסטיות שגיאת הערכת הרגרסיה משתנה בטווח הערכים של המשתנה ההסברתי או הבלתי תלוי, ובמרווחים שבהם שגיאה זו גדולה מאוד, תחזית הרגרסיה אינה אמינה או לא ישים.
במודל רגרסיה יש לחלק את השגיאות או השאריות (ו- -Y) בשונות שווה (σ ^ 2) לאורך כל מרווח הערכים של המשתנה הבלתי תלוי. מסיבה זו, מודל רגרסיה טוב (לינארי או לא לינארי) חייב לעבור את מבחן ההומוססטסטיות.
בדיקות הומוצדסטיות
הנקודות המוצגות באיור 3 תואמות את נתוני מחקר שחיפש קשר בין המחירים (בדולרים) של הבתים כפונקציה של הגודל או השטח במ"ר.
המודל הראשון שנבדק הוא של רגרסיה לינארית. ראשית, נציין כי מקדם הקביעה R ^ 2 של ההתאמה הוא גבוה למדי (91%), כך שניתן לחשוב שהתקף משביע רצון.
עם זאת, ניתן להבחין בבירור בין שני אזורים מגרף ההתאמה. אחד מהם, זה מימין הסגור בסגלגל, ממלא את ההומוצססטיות ואילו לאזור השמאלי אין הומוסצסטיות.
משמעות הדבר היא שהתחזית של מודל הרגרסיה היא מספקת ואמינה בטווח שבין 1800 מ '2 ל 4800 מ' ^ 2 אך אינה מספקת מאוד מחוץ לאזור זה. באזור ההטרוססדסטי לא רק שהשגיאה גדולה מאוד, אלא גם נראה כי הנתונים עוקבים אחר מגמה שונה מזו שמציע מודל הרגרסיה הליניארית.
איור 3. איור 3. מחירי הדיור לעומת האזור והמודל החזוי על ידי רגרסיה ליניארית, המראים אזורי הומוסצסטיות והטרוסצסטיות. (פירוט משלו)
גרף הפיזור של הנתונים הוא המבחן הפשוט ביותר והוויזואלי ביותר להומוסקטסטיות שלהם, עם זאת, במקרים בהם זה לא ניכר כמו בדוגמה המוצגת באיור 3, יש צורך להשתמש בגרפים עם משתני עזר.
משתנים סטנדרטיים
על מנת להפריד בין האזורים שבהם מתגשמת ההומוצדסטיות ואיפה שהיא לא, מוצגים המשתנים הסטנדרטיים ZRes ו- ZPred:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
יש לציין כי משתנים אלה תלויים במודל הרגרסיה המיושם, שכן Y הוא ערך תחזית הרגרסיה. להלן עלילת הפיזור ZRes לעומת ZPred לאותה דוגמא:
איור 4. יש לציין כי באזור ההומוצדסטיות ה- ZRes נשאר אחיד וקטן באזור החיזוי (פירוט משלו).
בתרשים באיור 4 עם המשתנים הסטנדרטיים, האזור בו שגיאת השאריות קטנה ואחידה מופרד בבירור מהאזור בו הוא לא. באזור הראשון מתממשת ההומוססטסטיות ואילו באזור בו השגיאה הנותרת משתנה וגדולה, מתממשת ההטרוססטסטיות.
התאמת רגרסיה מוחלת על אותה קבוצת נתונים באיור 3, במקרה זה ההתאמה אינה ליניארית, מכיוון שהמודל המשמש כרוך בפונקציה פוטנציאלית. התוצאה מוצגת באיור הבא:
איור 5. אזורים חדשים של הומוסצסטיות והטרוסצסטיות בהתאמת נתונים עם מודל רגרסיה לא לינארי. (פירוט משלו).
בתרשים של איור 5, יש לציין בבירור את האזורים ההומוססטסטיים וההטרוסססטסטיים. יצוין גם כי אזורים אלה הוחלפו ביחס לאזורים שנוצרו במודל התאמה לינארית.
בתרשים באיור 5 ניכר כי גם כאשר קיים מקדם קביעת די גבוה של ההתאמה (93.5%), המודל אינו מספיק לכל המרווח של המשתנה ההסבר, שכן הנתונים לגבי ערכים יותר מ 2000 מ '2 הנוכחי heteroscedasticity.
בדיקות לא גרפיות להומוסקטסטיות
אחת הבדיקות הלא גרפיות בהן נעשה שימוש לרוב כדי לאמת אם עומדים בהומוצדסטיות או לא, היא מבחן ברוס-פגאן.
לא כל הפרטים של מבחן זה יימסרו במאמר זה, אך מאפייניו הבסיסיים והצעדים של אותה מתוארים באופן גס:
- מודל הרגרסיה מיושם על נתוני n והשונות של אותו מחושב ביחס לערך המוערך על ידי המודל σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
- משתנה חדש מוגדר ε = ((yj - Y) ^ 2) / (σ ^ 2)
- אותו מודל רגרסיה מוחל על המשתנה החדש ומחושבים פרמטרי הרגרסיה החדשים שלו.
- נקבע הערך הקריטי של ריבוע הצ'י (χ ^ 2), זהו מחצית מסכום המשבצות שאריות חדשות במשתנה ε.
- טבלת החלוקה הריבועית של צ'י משמשת בהתחשב ברמת המשמעות (בדרך כלל 5%) ומספר דרגות החופש (# משתני רגרסיה מינוס היחידה) בציר ה- x של הטבלה, לקבלת הערך של הלוח.
- הערך הקריטי המתקבל בשלב 3 מושווה לערך שנמצא בטבלה (χ ^ 2).
- אם הערך הקריטי נמצא מתחת לערך הטבלה, יש לנו השערת האפס: יש הומוסצסטיות
- אם הערך הקריטי הוא מעל לערך הטבלה, יש לנו השערה אלטרנטיבית: אין הומוססטסטיות.
מרבית חבילות התוכנה הסטטיסטיות כגון: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic וכמה אחרות משלבות את מבחן ההומוססטסטיות של Breusch-Pagan. מבחן נוסף לאימות אחידות השונות הוא מבחן Levene.
הפניות
- תיבה, האנטר והצייד. (1988) סטטיסטיקה לחוקרים. הפכתי עורכים.
- ג'ונסטון, ג'יי (1989). שיטות אקונומטריות, עורכי Vicens -Vives.
- מורילו וגונזלס (2000). מדריך לכלכלה. אוניברסיטת לאס פלמאס דה גראן קנריה. התאושש מ: ulpgc.es.
- ויקיפדיה. הומוסקטסטיות. התאושש מ: es.wikipedia.com
- ויקיפדיה. הומוסקטסטיות. התאושש מ: en.wikipedia.com