Analiza de regresie

Analiza de regresie este un instrument de modelare statistică, folosit pentru a determina un model al legăturilor care se stabilesc între perechi de date numerice. Termenul „regresie” (din latină regressio) a fost introdus în statistică de Francis Galton. Cercetând problemele eredității pe baza observațiilor statistice, el a descoperit, printre altele, că din părinți a căror talie este mai mică decât media colectivității provin copii cu o talie superioară lor și invers.

Modelul este reprezentat grafic printr-o linie sau curbă care unește cel mai bine datele, reprezentate prin puncte. Rezultatele unei analize de regresie sunt o ecuație de regresie pentru linia sau curba corespunzătoare, o valoare a unui coeficient r² care indică cât de bine sunt ajustate datele cu modelul și alte valori statistice care indică cât de bine se potrivește modelul cu datele.

Regresia liniară identifică dreapta care aproximează cel mai bine datele dintr-o diagramă de dispersie.

Regresia polinomială identifică polinomul de grad dat care aproximează cel mai bine datele.

Regresia neliniară determină curba care aproximează cel mai bine datele.

Regresia multiplă se folosește în cazul unui număr de mai multe variabile independente care afectează o variabilă dependentă.

Analiza de regresie este una dintre metodele cele mai folosite pentru procesarea datelor experimentale obținute la investigațiile din fizică, biologie, economie, tehnologie și în alte domenii.

Situații de utilizare[modificare | modificare sursă]

Cele mai uzuale cazuri de utilizare a analizei de regresie sunt următoarele:

atunci când se colectează date numerice pereche;
după ce s-a desenat o diagramă de dispersie a datelor;
atunci când se urmărește să se afle modul în care o variație a variabilei independente afectează variabila dependentă;
dacă se dorește să se precizeze anticipat care este variabila dependentă în situația în care se cunoaște variabila independentă;
atunci când este necesar să se estimeze statistic cât de bine sunt ajustate o linie sau o curbă cu datele numerice.^[1]

Procedura de aplicare[modificare | modificare sursă]

Deși regresia liniară se poate realiza manual, calculele sunt efectuate mult mai ușor dacă se utilizează un software specializat. Analiza va genera un grafic al unei linii drepte de regresie, care ajustează cel mai bine datele respective, precum și un tabel cu statistici.

Ecuația funcției liniare de regresie este următoarea:

y=mx+b

(1)

în care y este variabila dependentă, iar x - variabila independentă (controlabilă). Valorile variabilei independente sunt date în prealabil. Reprezentarea grafică a ecuației (1) reprezintă linia de regresie a variabilei y în raport cu variabila x.^[2]

Panta liniei drepte. Parametrul m reprezintă, în sens geometric, panta liniei drepte. Panta m reprezintă cantitatea cu care crește variabila dependentă y pentru fiecare creștere cu o unitate a variabilei independente x. Valorile pozitive ale pantei m indică faptul că linia se înclină în sus, pornind de la stânga graficului spre dreapta. Valorile negative ale pantei indică faptul că linia se înclină în jos.

Intercepția liniei drepte. În ecuația funcției liniare, intercepția este dată de constanta b. Aceasta este valoarea lui y pentru care linia intersectează axa de coordonate Y. Cunoscând panta și intercepția se poate trasa linia dreaptă.

Există criterii pentru testarea liniarității modelului și pentru alegerea gradului polinomului de aproximare.

Coeficientul de determinare, r² Acest coeficient nu se confundă cu coeficientul de corelație r. Coeficientul de determinare este o măsură a concentrării punctelor experimentale în jurul dreptei de regresie și are valori între 0 și 1. Dacă r² = 1, linia se potrivește perfect cu datele experimentale și acest fapt indică o dependență funcțională liniară între variabilele x și y, adică fiecărei valori a variabilei x îi corespunde numai o singură valoare a variabilei y.

Intervalul de încredere este de obicei ales de 95%. Un interval de încredere de 95% este spațiul în care există siguranța garantată de probabilitatea de 95% că aici se află adevărata linie de regresie.

Caracteristicile analizei de regresie[modificare | modificare sursă]

Analiza de regresie se modelează în funcție de variațiile valorii variabilei dependente, în condițiile în care variabila independentă este controlabilă. Trebuie să se precizeze de la începutul analizei care variabilă se trece pe axa de coordonate X și care pe axa Y, pentru că rezultatul poate fi diferit dacă variabilele sunt inversate. Într-o regresie, variabila x prognozează valorile variabilei y.

Într-o regresie liniară, dacă valoarea coeficientului r² este zero înseamnă că x și y nu sunt într-o dependență liniară (însă nu este exclusă o dependență neliniară). Cea mai bună linie în acest caz este cea orizontală care trece printre punctele ce reprezintă datele. Totuși, o curbă de regresie poate să evidențieze mai bine dependențele. Întotdeauna ar trebui să se observe mai întâi diagrama de împrăștiere a datelor și apoi să se aleagă între o regresie liniară și una neliniară. Construirea curbelor de regresie se face prin metoda celor mai mici pătrate, pentru a identifica curba care ajustează cel mai bine datele experimentale.

O analiză vizuală a datelor experimentale reprezentate pe diagrama de împrăștiere (dispersie) poate identifica datele „excepționale” („suspecte” sau „aberante”), ce diferă mult de celelalte puncte, caz în care aceste valori este mai bine să fie excluse din prelucrarea ulterioară a datelor experimentale.^[3]

Dacă reprezentarea grafică a regresiei nu arată nici o dependență, trebuie să se verifice dacă variabila independentă x este variată în limite destul de suficiente. Uneori, dependența nu este descoperită datorită faptului că datele nu acoperă un șir destul de cuprinzător al valorilor variabilei independente.

Capetele intervalului de încredere sunt curbate. Acest fapt nu înseamnă că și linia de regresie va fi curbată. Toate liniile de regresie sunt apropiate una de cealaltă, dacă se află în apropierea centrului datelor și se depărtează una de alta la valorile extreme ale variabilei x.

Note[modificare | modificare sursă]

^ Nancy R. Tague, Instrumentele calității. Ediția a doua. Trad. din l. engleză. Sibiu, 2010, pp. 575-580. ISBN 978-973-0-09353-7
^ C. Moineagu, I. Negură, V. Urseanu, Statistica. Concepte, principii, metode. Editura Științifică și Enciclopedică, București, 1976. p. 320]]
^ L. Z. Rumșiski, Prelucrarea matematică a datelor experimentale. Îndrumar. Trad. din l. rusă de Ion Săcuiu. Editura Tehnică, București, 1974, p. 137

Bibliografie[modificare | modificare sursă]

Francis Galton, Typical laws of heredity, Nature, 15 (1877), pp. 492-495, 512-514, 532-533

Lectură suplimentară[modificare | modificare sursă]

Constantin Anghelache, Mario G. R. Pagliacci, Ligia Prodan, Model de analiză macroeconomică bazat pe funcția de regresie. În: Revista Română de Statistică, nr.1, 2013, p. 5-17

[1] Nancy R. Tague, Instrumentele calității. Ediția a doua. Trad. din l. engleză. Sibiu, 2010, pp. 575-580. ISBN 978-973-0-09353-7

[2] C. Moineagu, I. Negură, V. Urseanu, Statistica. Concepte, principii, metode. Editura Științifică și Enciclopedică, București, 1976. p. 320]]

[3] L. Z. Rumșiski, Prelucrarea matematică a datelor experimentale. Îndrumar. Trad. din l. rusă de Ion Săcuiu. Editura Tehnică, București, 1974, p. 137

[1]

[2]

[3]