סימן הכיתה , המכונה גם נקודת האמצע, הוא הערך במרכז הכיתה, אשר מייצג את כל הערכים שנמצאים באותה קטגוריה. ביסודו, סימון הכיתה משמש לחישוב פרמטרים מסוימים, כמו הממוצע האריתמטי או סטיית התקן.
אז סימן הכיתה הוא נקודת האמצע של כל מרווח. ערך זה מועיל מאוד גם כדי למצוא את השונות של מערכת נתונים שכבר מקובצת לשיעורים, אשר בתורם מאפשרת לנו להבין כמה רחוק מהמרכז נתונים ספציפיים אלה נמצאים.
חלוקת תדרים
כדי להבין מהו ציון כיתה, הרעיון של חלוקת תדרים נחוץ. בהינתן מערכת נתונים, התפלגות תדרים היא טבלה המחלקת את הנתונים למספר קטגוריות הנקראות מחלקות.
טבלה זו מציגה את מספר האלמנטים השייכים לכל מחלקה; האחרון ידוע כתדר.
טבלה זו מקריבה חלק מהמידע שאנו מקבלים מהנתונים, מכיוון שבמקום להיות בעל הערך האינדיבידואלי של כל אחד מהאלמנטים, אנו רק יודעים שהוא שייך לאותה מעמד.
מצד שני, אנו משיגים הבנה טובה יותר של מערך הנתונים, מכיוון שבדרך זו קל יותר להעריך דפוסים מבוססים, המאפשרים מניפולציה של נתונים כאמור.
כמה שיעורים לקחת בחשבון?
כדי לבצע חלוקת תדרים, עלינו לקבוע תחילה את מספר הכיתות שאנו רוצים לקחת ולבחור את מגבלות הכיתה שלהם.
הבחירה בכמה שיעורים לקחת צריכה להיות נוחה, תוך התחשבות שמספר קטן של שיעורים יכול להסתיר מידע על הנתונים שאנחנו רוצים ללמוד ואחד גדול מאוד יכול לייצר יותר מדי פרטים שאינם בהכרח מועילים.
הגורמים שעלינו לקחת בחשבון בבחירת כמה שיעורים לקחת הם כמה, אך בין שני אלה בולטים: הראשון הוא לקחת בחשבון כמה נתונים עלינו לקחת בחשבון; השנייה היא לדעת כמה גדול טווח ההתפלגות (כלומר, ההבדל בין התצפית הגדולה והקטנה ביותר).
לאחר שהכיתות כבר מוגדרות, אנו ממשיכים לספור כמה נתונים קיימים בכל כיתה. מספר זה נקרא תדר שיעורים ומצוין על ידי fi.
כפי שאמרנו קודם, יש לנו כי חלוקת תדרים מאבדת את המידע שמגיע באופן אינדיבידואלי מכל נתונים או תצפית. מסיבה זו מבקשים ערך המייצג את כל המעמד אליו הוא שייך; ערך זה הוא ציון הכיתה.
איך היא מתקבלת?
ציון הכיתה הוא ערך הליבה שמעמד מייצג. זה מתקבל על ידי הוספת גבולות המרווח וחלוקת ערך זה בשניים. אנו יכולים לבטא זאת באופן מתמטי באופן הבא:
x i = (גבול תחתון + גבול עליון) / 2.
בביטוי זה x i מציין את הסימן של מחלקת ith.
דוגמא
בהינתן מערך הנתונים שלהלן, תנו חלוקת תדרים מייצגת וקבלו את ציון הכיתה המתאים.
מכיוון שהנתונים עם הערך המספרי הגבוה ביותר הם 391 והנמוך ביותר הוא 221, יש לנו שהטווח הוא 391 -221 = 170.
אנו נבחר 5 שיעורים, כולם באותו גודל. אחת הדרכים לבחור שיעורים היא כדלקמן:
שים לב שכל נתונים הם בכיתה, אלה אינם מפרקים ובעלי ערך זהה. דרך נוספת לבחור מחלקות היא להתייחס לנתונים כחלק ממשתנה רציף, שיכול להגיע לכל ערך אמיתי. במקרה זה אנו יכולים לשקול שיעורים בטופס:
205-245, 245-285, 285-325, 325-365, 365-405
עם זאת, דרך זו של קיבוץ נתונים יכולה להציג כמה עמימות עם הגבולות. לדוגמא, במקרה של 245 נשאלת השאלה: לאיזה מעמד היא שייכת, הראשונה או השנייה?
כדי למנוע בלבול זה, מתקיימת אמנת נקודת קצה. באופן זה המחלקה הראשונה תהיה המרווח (205,245], השנייה (245,285] וכן הלאה.
לאחר הגדרת הכיתות, אנו ממשיכים לחשב את התדירות ויש לנו את הטבלה הבאה:
לאחר השגת התפלגות התדרים של הנתונים, אנו ממשיכים למצוא את סימוני הכיתה של כל מרווח. למעשה עלינו:
x 1 = (205+ 245) / 2 = 225
x 2 = (245+ 285) / 2 = 265
x 3 = (285+ 325) / 2 = 305
x 4 = (325+ 365) / 2 = 345
x 5 = (365+ 405) / 2 = 385
אנו יכולים לייצג זאת באמצעות הגרף הבא:
לשם מה זה?
כאמור, סימון הכיתה מאוד פונקציונלי למציאת הממוצע האריתמטי והשונות של קבוצת נתונים שכבר קיבלו קבוצות בכיתות שונות.
אנו יכולים להגדיר את הממוצע החשבון כסכום התצפיות שהתקבלו בין גודל המדגם. מנקודת מבט פיזית, הפרשנות שלה היא כמו נקודת שיווי המשקל של מערך נתונים.
זיהוי נתונים שלמים שנקבע על ידי מספר בודד יכול להיות מסוכן, ולכן יש לקחת בחשבון גם את ההבדל בין נקודת פריצה זו לבין הנתונים בפועל. ערכים אלה ידועים כסטייה מהממוצע האריתמטי, ובעזרתם אנו מבקשים לקבוע עד כמה משתנה הממוצע האריתמטי של הנתונים.
הדרך הנפוצה ביותר למצוא ערך זה היא על ידי שונות, שהיא ממוצע הריבועים של הסטיות מהממוצע האריתמטי.
כדי לחשב את הממוצע האריתמטי ואת השונות של קבוצת נתונים המקובצת בכיתה, אנו משתמשים בנוסחאות הבאות, בהתאמה:
בביטויים אלה x i הוא סימן הכיתה ה- i, f i מייצג את התדר המתאים ואת k מספר הכיתות בהן קיבצו את הנתונים.
דוגמא
תוך כדי שימוש בנתונים שניתנו בדוגמה הקודמת, יש לנו שנוכל להרחיב מעט יותר את הנתונים של טבלת חלוקת התדרים. אתה מקבל את הדברים הבאים:
ואז, על ידי החלפת הנתונים בנוסחה, נותר לנו עם הממוצע האריתמטי כ:
השונות שלו וסטיית התקן הן:
מכאן ניתן להסיק כי הנתונים המקוריים הם בעלי ממוצע חשבון של 306.6 וסטיית תקן של 39.56.
הפניות
- פרננדס פ. סנטיאגו, קורדובה ל. אלחנדרו, קורדרו ס. חוסה מ. סטטיסטיקה תיאורית. Esic מערכת.
- ג'ונסון ריצ'רד א 'מילר וסבירות פרונד ומדינות מהנדסים. חינוך פירסון.
- מילר אני ופרונד ג 'הסתברות ומדינאי מהנדסים. לַחֲזוֹר.
- סרביה א. חוזה מריה, פסקואל מרתה. קורס סטטיסטי בסיסי לחברות
- Llinás S. Humberto, Rojas A. Carlos סטטיסטיקות תיאוריות והפצות הסתברות, Universidad del Norte Editor