Analiza regresieiAnaliza regresiei. Sună ca o parte a unei psihologii Freudiene. În realitate, regresia este o unealtă statistică aparent omniprezentă, care apare în numeroase lucrări ştiinţifice, iar analiza regresiei este o metodă de măsurare a legăturii dintre două sau mai multe fenomene.

 

 

 

 

Desigur, este unealtă omniprezentă de cercetare ştiinţifică, însă ce este mai exact regresia şi la ce este folosită?

 

Imaginaţi-vă că vreţi să ştiţi care este conexiunea dintre suprafaţa în metri pătraţi a unei case şi preţul acesteia. O regresie trasează o astfel de legătură, în acest sens indicând cu precizie „un efect cauzal mediu”, după cum au notat economistul Josh Angrist de la MIT şi coautorul Jorn-Steffen Pischke de la şcoala de Economie din Londra, în cartea lor, „Econometrie în general inofensivă”, publicată în 2009.

 



Pentru a stăpâni conceptul de bază, luaţi cea mai simplă formă de regresie: o regresie liniară, bidimensională, care descrie o legătură stabilă dintre două sau mai multe fenomene. Acum să presupunem că vă gândiţi dacă este vreo legătură între timpul petrecut de liceeni pentru rezolvarea temei la franceză şi notele pe care le primesc. Aceste tipuri de date pot fi reprezentate ca puncte ale unui grafic, unde axa X este numărul mediu de ore pe săptămână în care un licean studiază, iar axa Y reprezintă notele examenului până la 100. Împreună, punctele de date se vor răspândi, puţin, pe tot graficul. Analiza regresiei creează acea linie singulară care sumarizează cel mai bine distribuţia punctelor. 

Din punct de vedere matematic, linia reprezentând o regresie liniară simplă este exprimată printr-o ecuaţie de bază de forma Y = a0 + a1 * X. În cazul de faţă, X este numărul de ore pe săptămână petrecute învăţând, adică „variabila independentă”. Y reprezintă punctajul de la examen, „variabila dependentă”, din ce moment ce am presupus că acest punctaj depinde de numărul de ore de studiu. Adiţional, a0 este un punct de pe axa Y (egal cu valoarea lui Y când X este zero), iar a1 este panta liniei, caracterizând relaţia dintre cele două variabile.

Folosind alte două ecuaţii puţin mai complexe, „ecuaţiile normale” ale liniei regresiei lineare, putem introduce toate valorile pentru X şi Y, aflând astfel valorile lui a0 şi a1, pe baza cărora se va trasa linia de pe grafic. Această linie deseori reprezintă cea mai mică mulţime a pătratelor distanţelor dintre puncte şi ea însăşi, mai exact, rezultatul metodei „Celor mai mici pătrate” (OLS – Ordinary Least Square), menţionată în numeroase lucrări academice.

Pentru a vedea logica metodei OLS, imaginaţi-vă linia unei regresii care se află cu 6 unităţi sub un punct de date şi cu 6 unităţi peste un alt punct de date; aşadar este, în medie, la 6 unităţi depărtare de 2 puncte de date. Presupunem trasarea unei a doua linii care trece cu 10 unităţi sub un punct de date şi cu 2 unităţi deasupra unui alt punct; şi acesta este, în medie, la 6 puncte depărtare de 2 puncte de date. Însă dacă ridicăm la pătrat distanţele implicate, vom obţine rezultate diferite: 62 + 62 = 72, în primul caz, şi 102 + 22 = 104, în cel de-al doilea caz. Astfel, prima linie obţine partea inferioară a figurii, cea a „celor mai mici pătrate”, şi este o reducere mai consistentă a distanţelor faţă de punctele de date. (Metode adiţionale, în afară de OLS, pot găsi cea mai bună linie pentru forme mult mai complexe ale analizei regresiei.)

În schimb, distanţa tipică dintre linie şi toate punctele (uneori denumită „eroarea standard”) indică dacă analiza regresiei a captat o relaţie puternică sau slabă. Per ansamblu, cu cât o linie este mai aproape de punctele de date, cu atât relaţia este mai puternică.

Încă o dată, analiza regresiei stabileşte o corelaţie dintre fenomene. Însă, după cum se spune, corelaţia nu este cauza. Chiar şi o linie care aproape atinge punctele de date, este posibil să nu ofere multe detalii despre cauzalitate. Poate că unii studenţi reuşesc să obţină note mari la cursul de franceză pentru că studiază intens. Sau poate că acei studenţi beneficiază de abilităţi lingvistice naturale mai dezvoltate, iar acestora pur şi simplu le place să studieze mai mult, însă nu beneficiază în mod special de aceste noţiuni. Probabil că există o corelaţie mai puternică între rezultatele testului şi timpul total petrecut de studenţi ascultând vorbindu-se franceză, înainte de a se înscrie în această clasă particulară. Povestirea care reiese din date utile poate să nu fie întreaga poveste.

Aşadar este încă nevoie de o gândire precisă şi de studii atente pentru a localiza în lume relaţii cauză-efect semnificative. Însă la minimum, analiza regresiei ajută la stabilirea existenţei conexiunilor care necesită o investigarea mai atentă.

 

 

Textul este traducerea articolului explained-reg-analysis.
Traducere: Arseni Stefan Ciprian