Formule de coeficient de determinare, calcul, interpretare, exemple

3500
Egbert Haynes
Formule de coeficient de determinare, calcul, interpretare, exemple

coeficient de determinare este un număr între 0 și 1 care reprezintă fracția de puncte (X, Y) care urmează linia de regresie de potrivire a unui set de date cu două variabile.

Este, de asemenea, cunoscut sub numele de bunătatea potrivirii și este notat cu RDouă. Pentru a-l calcula, se ia coeficientul dintre varianța datelor Ŷi estimată de modelul de regresie și varianța datelor Yi corespunzătoare fiecărui Xi al datelor.

RDouă = Sŷ / Sy

Figura 1. Coeficientul de corelație pentru patru perechi de date. Sursa: F. Zapata.

Dacă 100% din date se află pe linia funcției de regresie, atunci coeficientul de determinare va fi 1.

Dimpotrivă, dacă pentru un set de date și o anumită reglare funcționează coeficientul RDouă se dovedește a fi egal cu 0,5, atunci se poate spune că potrivirea este 50% satisfăcătoare sau bună. 

În mod similar, atunci când modelul de regresie returnează valori ale lui RDouă mai mică de 0,5, aceasta indică faptul că funcția de reglare aleasă nu se adaptează satisfăcător la date, de aceea este necesar să căutați o altă funcție de reglare.

Și când covarianță sau coeficient de corelație tinde la zero, atunci variabilele X și Y din date nu au legătură și, prin urmare, RDouă va tinde, de asemenea, la zero.

Indice articol

  • 1 Cum se calculează coeficientul de determinare?
    • 1.1 Caz ilustrativ
  • 2 Interpretare
  • 3 Exemple
    • 3.1 - Exemplul 1
    • 3.2 - Exemplul 2
    • 3.3 - Exemplul 3
    • 3.4 Comparație potrivită
    • 3.5 Concluzii
  • 4 Referințe

Cum se calculează coeficientul de determinare?

În secțiunea anterioară s-a spus că coeficientul de determinare este calculat prin găsirea coeficientului dintre varianțe:

-Estimat de funcția de regresie a variabilei Y 

-Cea a variabilei Yi corespunzătoare fiecărei variabile Xi a N perechi de date. 

Afirmat matematic, arată astfel:

RDouă = Sŷ / Sy

Din această formulă rezultă că RDouă reprezintă proporția de varianță explicată de modelul de regresie. Alternativ, R poate fi calculatDouă folosind următoarea formulă, total echivalentă cu cea precedentă:

RDouă = 1 - (Sε / Sy)

Unde Sε reprezintă varianța reziduurilor εi = Ŷi - Yi, în timp ce Sy este varianța setului de valori Yi ale datelor. Pentru a determina Ŷi se aplică funcția de regresie, ceea ce înseamnă a afirma că Ŷi = f (Xi).

Varianța setului de date Yi, cu i de la 1 la N se calculează după cum urmează:

Sy = [Σ (Yi - )Două ) / (N-1)]

Și apoi procedați în mod similar pentru Sŷ sau pentru Sε.

Caz ilustrativ

Pentru a arăta detaliile modului în care calculul coeficient de determinare vom lua următorul set de patru perechi de date: 

(X, Y): (1, 1); (2. 3); (3, 6) și (4, 7).

Pentru acest set de date este propusă o potrivire de regresie liniară, care se obține folosind metoda celor mai mici pătrate:

f (x) = 2,1 x - 1 

Aplicând această funcție de reglare, cuplurile sunt obținute:

(X, Ŷ): (1, 1.1); (2, 3,2); (3, 5.3) și (4, 7.4).

Apoi calculăm media aritmetică pentru X și Y:

= (1 + 2 + 3 + 4) / 4 = 2,5

= (1 + 3 + 6 + 7) / 4 = 4,25

Varianța Sy

Sy = [(1 - 4,25)Două + (3 - 4,25)Două + (6 - 4,25)Două +….…. (7 - 4.25)Două] / (4-1) =

= [(-3,25)Două+ (-1,25)Două + (1,75)Două + (2,75)Două) / (3)] = 7.583

Varianța Sŷ

Sŷ = [(1.1 - 4.25)Două + (3,2 - 4,25)Două + (5,3 - 4,25)Două +….…. (7.4 - 4.25)Două] / (4-1) =

= [(-3,25)Două + (-1,25)Două + (1,75)Două + (2,75)Două) / (3)] = 7,35

Coeficientul de determinare RDouă

RDouă = Sŷ / Sy = 7,35 / 7,58 = 0,97

Interpretare

Coeficientul de determinare pentru cazul ilustrativ luat în considerare în segmentul anterior s-a dovedit a fi 0,98. Cu alte cuvinte, reglarea liniară prin funcția:

 f (x) = 2,1x - 1

Este 98% fiabil în explicarea datelor cu care a fost obținută folosind metoda celor mai mici pătrate.. 

Pe lângă coeficientul de determinare, există coeficient de corelație liniară sau, de asemenea, cunoscut sub numele de coeficientul lui Pearson. Acest coeficient, notat ca r, se calculează după următoarea relație:

r = Sxy / (Sx Sy)

Aici numeratorul reprezintă covarianța între variabilele X și Y, în timp ce numitorul este produsul abaterii standard pentru variabila X și abaterea standard pentru variabila Y.

Coeficientul lui Pearson poate lua valori cuprinse între -1 și +1. Când acest coeficient tinde la +1 există o corelație liniară directă între X și Y. Dacă în schimb tinde la -1, există o corelație liniară, dar când X crește Y scade. În cele din urmă, este aproape de 0, nu există nicio corelație între cele două variabile.

Trebuie remarcat faptul că coeficientul de determinare coincide cu pătratul coeficientului Pearson, numai atunci când primul a fost calculat pe baza unei potriviri liniare, dar această egalitate nu este valabilă pentru alte fitinguri neliniare..

Exemple

- Exemplul 1

Un grup de liceeni și-a propus să stabilească o lege empirică pentru perioada unui pendul în funcție de lungimea acestuia. Pentru a atinge acest obiectiv, ei efectuează o serie de măsurători în care măsoară timpul unei oscilații a pendulului pentru diferite lungimi, obținând următoarele valori:

Lungime (m) Perioada (perioadele)
0,1 0,6
0,4 1.31
0,7 1,78
1 1,93
1.3 2.19
1.6 2,66
1.9 2,77
3 3,62

Se solicită realizarea unui grafic de dispersie a datelor și efectuarea unei potriviri liniare prin regresie. De asemenea, arătați ecuația de regresie și coeficientul său de determinare.

Soluţie

Figura 2. Graficul soluției pentru exercițiul 1. Sursa: F. Zapata.

Se poate observa un coeficient de determinare destul de ridicat (95%), deci s-ar putea crede că potrivirea liniară este optimă. Cu toate acestea, dacă punctele sunt vizualizate împreună, se pare că au tendința de a se curba în jos. Acest detaliu nu este contemplat în modelul liniar.

- Exemplul 2

Pentru aceleași date din Exemplul 1, faceți un grafic de dispersie al datelor. Cu această ocazie, spre deosebire de exemplul 1, este necesară o ajustare de regresie utilizând o funcție potențială.

Figura 3. Graficul soluției pentru exercițiul 2. Sursa: F. Zapata.

De asemenea, arătați funcția de potrivire și coeficientul său de determinare RDouă.

Soluţie

Funcția potențială este de forma f (x) = AxB, unde A și B sunt constante care sunt determinate prin metoda celor mai mici pătrate.

Figura anterioară arată funcția potențială și parametrii săi, precum și coeficientul de determinare cu o valoare foarte mare de 99%. Observați că datele urmează curbura liniei de tendință.

- Exemplul 3

Folosind aceleași date din Exemplul 1 și Exemplul 2, efectuați o potrivire polinomială de gradul doi. Arată graficul, polinomul de potrivire și coeficientul de determinare RDouă corespondent.

Soluţie

Figura 4. Graficul soluției pentru exercițiul 3. Sursa: F. Zapata.

Cu potrivirea polinomială de gradul doi, puteți vedea o linie de tendință care se potrivește bine cu curbura datelor. De asemenea, coeficientul de determinare este peste potrivirea liniară și sub potrivirea potențială..

Comparație potrivită

Dintre cele trei potriviri afișate, cea cu cel mai mare coeficient de determinare este potrivirea potențială (exemplul 2).

Potrivirea potențială coincide cu teoria fizică a pendulului, care, așa cum se știe, stabilește că perioada unui pendul este proporțională cu rădăcina pătrată a lungimii sale, constanta proporționalității fiind 2π / √g unde g este gravitatie.

Acest tip de potrivire potențială nu numai că are cel mai mare coeficient de determinare, dar exponentul și constanta proporționalității se potrivesc cu modelul fizic.. 

Concluzii

-Potrivirea prin regresie determină parametrii funcției care este menită să explice datele folosind metoda celor mai mici pătrate. Această metodă constă în minimizarea sumei diferenței pătrate între valoarea Y a ajustării și valoarea Yi a datelor pentru valorile Xi ale datelor. Aceasta determină parametrii funcției de reglare.

-După cum am văzut, cea mai comună funcție de ajustare este linia, dar nu este singura, deoarece ajustările pot fi, de asemenea, polinomiale, potențiale, exponențiale, logaritmice și altele.. 

-În orice caz, coeficientul de determinare depinde de date și de tipul de potrivire și este o indicație a bunătății potrivirii aplicate..

-În cele din urmă, coeficientul de determinare indică procentul variabilității totale între valoarea Y a datelor în raport cu valoarea Ŷ a potrivirii pentru X dat.

Referințe

  1. González C. Statistici generale. Recuperat de pe: tarwi.lamolina.edu.pe
  2. IACS. Institutul Aragonesc de Științe ale Sănătății. Recuperat de pe: ics-aragon.com
  3. Salazar C. și Castillo S. Principiile de bază ale statisticii. (2018). Recuperat de la: dspace.uce.edu.ec
  4. Superprof. Coeficient de determinare. Recuperat de pe: superprof.es
  5. USAC. Manual de statistici descriptive. (2011). Recuperat de la: statistics.ingenieria.usac.edu.gt.
  6. Wikipedia. Coeficient de determinare. Recuperat de pe: es.wikipedia.com.

Nimeni nu a comentat acest articol încă.