- כיצד לחשב את מקדם המתאם?
- משתנות ושונות
- מקרה המחשה
- Covariance Sxy
- סטיית תקן Sx
- סטיית תקן Sy
- מקדם מתאם r
- פרשנות
- רגרסיה לינארית
- דוגמא
- הפניות
מקדם המתאם בסטטיסטיקה הוא אינדיקטור המודד את הנטייה של שני משתנים כמותיים X ו- Y יש ליניארי או יחסים יחסיים ביניהם.
באופן כללי, זוגות המשתנים X ו- Y הם שני מאפיינים של אותה אוכלוסיה. לדוגמא, X יכול להיות גובהו של האדם ו Y המשקל שלו.
איור 1. מקדם מתאם לארבעה זוגות נתונים (X, Y). מקור: פ. זפטה.
במקרה זה, מקדם המתאם מעיד האם קיימת מגמה לקשר יחסי בין גובה ומשקל באוכלוסייה נתונה.
מקדם המתאם הליניארי של פירסון מציין את האות הקטנה r וערכי המינימום והמקסימום שלו הם -1 ו +1 בהתאמה.
ערך r = +1 יציין כי קבוצת הצמדים (X, Y) מיושרים בצורה מושלמת וכי כאשר X יגדל, Y יגדל באותה פרופורציה. מצד שני, אם זה קרה ש- r = -1, קבוצת הזוגות הייתה גם מיושרת בצורה מושלמת, אבל במקרה זה כאשר X גדל, Y יורד באותו פרופורציה.
איור 2. ערכים שונים של מקדם המתאם הליניארי. מקור: Wikimedia Commons.
מצד שני, ערך r = 0 מעיד על כך שאין מתאם לינארי בין המשתנים X ו- Y. בעוד שערך r = +0.8 היה מצביע על כך שהזוגות (X, Y) נוטים להתקבץ בצד אחד ו עוד קו מסוים.
הנוסחה לחישוב מקדם המתאם r היא כדלקמן:
כיצד לחשב את מקדם המתאם?
מקדם המתאם הליניארי הוא כמות סטטיסטית המובנית בתוך מחשבונים מדעיים, רוב הגיליונות האלקטרוניים ותוכניות סטטיסטיות.
עם זאת, נוח לדעת כיצד מיושמת הנוסחה המגדירה אותה, ועל כך יוצג חישוב מפורט, המתבצע על מערך נתונים קטן.
וכאמור בסעיף הקודם, מקדם המתאם הוא ה- coxarians Sxy המחולק על ידי תוצר סטיית התקן Sx עבור המשתנים X ו- Sy עבור המשתנה Y.
משתנות ושונות
ה- Sxy משתנה הוא:
Sxy = / (N-1)
כאשר הסכום עובר מ -1 לצמדי הנתונים N (Xi, Yi).
מצדו סטיית התקן עבור המשתנה X היא השורש הריבועי של השונות של מערך הנתונים Xi, עם i מ -1 ל- N:
Sx = √
באופן דומה, סטיית התקן עבור משתנה Y היא השורש הריבועי של השונות של מערך הנתונים Yi, עם i מ -1 ל- N:
Sy = √
מקרה המחשה
על מנת להראות בפירוט כיצד לחשב את מקדם המתאם, ניקח את הסט הבא של ארבעה זוגות נתונים
(X, Y): {(1, 1); (2. 3); (3, 6) ו- (4, 7)}.
ראשית, אנו מחשבים את הממוצע האריתמטי עבור X ו- Y, כדלקמן:
ואז מחושבים שאר הפרמטרים:
Covariance Sxy
Sxy = / (4-1)
Sxy = / (3) = 10.5 / 3 = 3.5
סטיית תקן Sx
Sx = √ = √ = 1.29
סטיית תקן Sy
Sx = √ =
√ = 2.75
מקדם מתאם r
r = 3.5 / (1.29 * 2.75) = 0.98
פרשנות
במערך הנתונים של המקרה הקודם, נצפה מתאם לינארי חזק בין המשתנים X ו- Y, המתבטא הן בעלילת הפיזור (מוצג באיור 1) והן במקדם המתאם, שהניב ערך די קרוב לאחדות.
ככל שמקדם המתאם קרוב יותר ל -1 או ל -1, ככל שהגיוני להתאים את הנתונים לקו, התוצאה של רגרסיה לינארית.
רגרסיה לינארית
קו הרגרסיה הליניארית מתקבל משיטת הריבועים הכי פחות. בהם מתקבלים הפרמטרים של קו הרגרסיה ממזעור סכום ריבוע ההפרש בין ערך ה- Y המשוער ל- Y של נתוני N.
מצד שני, הפרמטרים a ו- b של קו הרגרסיה y = a + bx, המתקבלים בשיטה של הריבועים הכי פחות, הם:
* b = Sxy / (Sx 2 ) למדרון
* a =
נזכיר ש- Sxy הוא המזוריות שהוגדרה לעיל ו- Sx 2 הוא השונות או הריבוע של סטיית התקן שהוגדרה לעיל.
דוגמא
מקדם המתאם משמש כדי לקבוע אם יש מתאם לינארי בין שני משתנים. זה ישים כאשר המשתנים שיש ללמוד הם כמותיים, ויתרה מכך, ההנחה היא שהם עוקבים אחר התפלגות סוג רגילה.
להלן דוגמה המחשה: מדד למידת ההשמנה הוא מדד מסת הגוף, המתקבל על ידי חלוקת משקלו של אדם בקילוגרמים בגובה הריבועי של האדם ביחידות של מטרים בריבוע.
אתה רוצה לדעת אם יש קשר חזק בין מדד מסת הגוף לריכוז הכולסטרול HDL בדם, הנמדד במילימול לליטר. לצורך כך בוצע מחקר עם 533 אנשים, אשר מסוכמים בגרף הבא, בו כל נקודה מייצגת את הנתונים של אדם אחד.
איור 3. איור 3. מחקר של כולסטרול BMI ו- HDL בקרב 533 חולים. מקור: המכון Aragonese למדעי הבריאות (IACS).
התבוננות מדוקדקת בגרף מראה שיש מגמה לינארית מסוימת (לא מאוד מסומנת) בין ריכוז הכולסטרול HDL לבין מדד מסת הגוף. המדד הכמותי של מגמה זו הוא מקדם המתאם, שבמקרה זה התברר כ- = 0.2076.
הפניות
- González C. סטטיסטיקות כלליות. התאושש מ: tarwi.lamolina.edu.pe
- IACS. המכון למדעי הבריאות של אראגון. התאושש מ: ics-aragon.com
- Salazar C. ו- Castillo S. עקרונות בסיסיים לסטטיסטיקה. (2018). התאושש מ: dspace.uce.edu.ec
- סופר-פרופ. מקדם התאמה. התאושש מ: superprof.es
- ארה"ב. מדריך סטטיסטי תיאורי. (2011). התאושש מ: Statistics.ingenieria.usac.edu.gt
- ויקיפדיה. מקדם המתאם של פירסון. התאושש מ: es.wikipedia.com.