măsuri de variabilitate, De asemenea, numiți măsuri de dispersie, sunt indicatori statistici care indică cât de aproape sau de departe sunt datele de media sa aritmetică. Dacă datele sunt apropiate de medie, distribuția este concentrată, iar dacă sunt departe, atunci este o distribuție rară..
Există multe măsuri de variabilitate, printre cele mai cunoscute sunt:
Aceste măsuri completează măsurile de tendință centrală și sunt necesare pentru a înțelege distribuția datelor obținute și a extrage din ele cât mai multe informații posibil..
Gama sau intervalul măsoară lățimea unui set de date. Pentru a-i determina valoarea, diferența dintre datele cu cea mai mare valoare xmax iar cea cu cea mai mică valoare xmin:
R = xmax - Xmin
Dacă datele nu sunt libere, ci grupate în funcție de interval, atunci intervalul se calculează prin diferența dintre limita superioară a ultimului interval și limita inferioară a primului interval.
Când intervalul este o valoare mică înseamnă că toate datele sunt destul de apropiate unele de altele, dar un interval mare indică faptul că există o mare variabilitate. Este clar că, în afară de limita superioară și limita inferioară a datelor, intervalul nu ia în considerare valorile dintre ele, deci nu este recomandat să îl utilizați atunci când numărul de date este mare.
Cu toate acestea, este o măsură imediată de calculat și are aceleași unități de date, deci este ușor de interpretat.
Mai jos este lista cu numărul de goluri marcate în weekend, în ligile de fotbal din nouă țări:
40, 32, 35, 36, 37, 31, 37, 29, 39
Acesta este un set de date negroupat. Pentru a găsi intervalul, continuăm să le comandăm de la cel mai mic la cel mai mare:
29, 31, 32, 35, 36, 37, 37, 39, 40
Datele cu cea mai mare valoare sunt de 40 de goluri și cea cu cea mai mică valoare este de 29 de goluri, prin urmare intervalul este:
R = 40−29 = 11 goluri.
Se poate considera că intervalul este mic în comparație cu datele cu valoare minimă, care este de 29 de obiective, deci se poate presupune că datele nu au o variabilitate mare.
Această măsură a variabilității este calculată prin media valorilor absolute ale abaterilor față de medie.. Notând abaterea medie ca DM, Pentru datele ne-grupate, deviația medie se calculează utilizând următoarea formulă:
Unde n este numărul de date disponibile, xeu reprezintă fiecare dată și x̄ este media, care se determină prin adăugarea tuturor datelor și împărțirea la n:
Abaterea medie permite să știm, în medie, în câte unități se abate datele de la media aritmetică și are avantajul de a avea aceleași unități ca datele cu care lucrăm.
Pe baza datelor din exemplul intervalului, numărul de goluri marcate este:
40, 32, 35, 36, 37, 31, 37, 29, 39
Dacă doriți să găsiți abaterea medie DM Din aceste date, este necesar să se calculeze mai întâi media aritmetică x̄:
Și acum, când se cunoaște valoarea lui x̄, continuăm să găsim abaterea medie DM:
= 2,99 ≈ 3 goluri
Prin urmare, se poate afirma că, în medie, datele sunt la aproximativ 3 goluri distanță de medie, care este de 35 de goluri și, după cum sa menționat, este o măsură mult mai precisă decât intervalul..
Abaterea medie este o măsură de variabilitate mult mai fină decât intervalul, dar din moment ce este calculată prin valoarea absolută a diferențelor dintre fiecare dată și medie, nu oferă o versatilitate mai mare din punct de vedere algebric..
Din acest motiv, este preferată varianța, care corespunde mediei diferenței pătratice a fiecărei date cu media și se calculează folosind formula:
În această expresie, sDouă denotă varianța și, ca întotdeauna, xeu reprezintă fiecare dintre date, x̄ este media și n este datele totale.
Când lucrați cu un eșantion în loc de populație, este de preferat să calculați varianța astfel:
În orice caz, varianța se caracterizează prin faptul că este întotdeauna o cantitate pozitivă, dar din moment ce este media diferențelor pătratice, este important de reținut că nu are aceleași unități ca cele ale datelor..
Pentru a calcula varianța datelor din exemplele de interval și deviație medie, procedăm la înlocuirea valorilor corespunzătoare și la efectuarea însumării indicate. În acest caz, alegem să împărțim la n-1:
= 13,86
Varianța nu are aceeași unitate ca cea a variabilei studiate, de exemplu, dacă datele sunt exprimate în metri, varianța rezultă în metri pătrați. Sau în exemplul de goluri ar fi în goluri pătrate, ceea ce nu are sens.
Prin urmare, este definită abaterea standard, numită și abaterea tipică, ca rădăcină pătrată a varianței:
s = √sDouă
În acest fel, se obține o măsură a variabilității datelor în aceleași unități ca acestea și, cu cât valoarea lui s este mai mică, cu atât datele sunt mai grupate în jurul mediei..
Atât varianța, cât și abaterea standard sunt măsurile de variabilitate de ales atunci când media aritmetică este măsura tendinței centrale care descrie cel mai bine comportamentul datelor..
Și este că abaterea standard are o proprietate importantă, cunoscută sub numele de teorema lui Chebyshev: cel puțin 75% din observații se află în intervalul definit de X ± 2s. Cu alte cuvinte, 75% din date se află la cel mult 2 secunde distanță de medie..
De asemenea, cel puțin 89% din valori se află la o distanță de 3s față de medie, un procent care poate fi extins, atâta timp cât există o mulțime de date disponibile și urmează o distribuție normală..
Figura 2.- Dacă datele urmează o distribuție normală, 95,4 dintre ele se încadrează în două abateri standard de pe ambele părți ale mediei. Sursa: Wikimedia Commons.
Abaterea standard a datelor prezentate în exemplele anterioare este:
s = √sDouă = √13.86 = 3.7 ≈ 4 goluri
Nimeni nu a comentat acest articol încă.