SigmaCând se poate spune despre o descoperire că este semnificativă? Valoarea sigma (deviaţia statistică standard, notată cu litera grecească cu acelaşi nume - σ) ne poate da răspunsul la această întrebare, însă atenţie la capcane. Detalii, în continuare.

 

 

 

Întrebarea precizată mai sus este o întrebare ridicată, în principiu, la fiecare descoperire majoră din domeniul ştiinţei sau medicinei: Ce face un rezultat să fie destul de fiabil încât să fie luat ca sigur? Răspunsul este legat atât de importanţa statistică, cât şi de standardele care ar avea sens în situaţia dată.

Unitatea de măsură folosită cel mai frecvent în discuţiile despre importanţa statistică este deviaţia standard, notată cu litera grecească mică sigma (σ). Termenul se referă la cantitatea de variabile dintr-un set de date definit: dacă punctele de date sunt grupate sau dispersate.

 

Sigma

În graficul de mai sus al unei distribuţii normale, în care este prezentată curba clasică de tip „clopot” (curba lui Gauss), valoarea medie este linia verticală din centrul imaginii, iar liniile verticale din ambele părţi ale ei reprezintă delimitările intervalelor de 1, 2 sau 3 sigma. Procentajele de puncte de date care se găsesc în fiecare segment al acestei distribuţii sunt indicate pe grafic.





În multe situaţii, rezultatele unui experiment urmează ceea ce se numeşte „distribuţie normală”. De exemplu, dacă arunci o monedă de 100 de ori şi numeri de câte ori iese pajură, rezultatul mediu va fi 50. Însă dacă se va face acest test de 100 de ori, majoritatea rezultatelor vor fi aproximativ 50, dar nu exact această valoare. Veţi număra cam acelaşi număr de rezultate de 49 sau 51. De asemenea vor fi destul de puţine rezultate de 45 sau 55, însă aproape nici un rezultat de 20 sau 80. Dacă se vor reprezenta grafic rezultatele celor 100 de teste, se va obţine o formă bine cunoscută, o curbă clopot, care are maximul la mijloc şi descreşte de ambele părţi. Aceasta este o distribuţie normală.

Deviaţia reprezintă distanţa dintre un punct dat şi medie. În exemplu cu moneda, un rezultat de 47 are o deviaţie de 3 până la media de 50. Deviaţia standard este doar rădăcina pătrată a mediei tuturor deviaţiilor la pătrat. O deviaţie standard, sau o sigma, reprezentată grafic deasupra sau sub valoarea medie a curbei distribuţiei normale, va defini o regiune care cuprinde 68 de procente din toate punctele de date. Două sigma deasupra sau sub valoarea medie vor cuprinde 95 de procente din date, iar trei sigma vor cuprinde 97.7 procente.

Aşadar, când un punct de date particular (sau rezultat al cercetării) este considerat semnificativ? Deviaţia standard poate furniza un etalon: dacă punctul de date este la câteva deviaţii standard depărtare de modelul testat, atunci acest lucru constituie probe importante că punctul de date nu este consistent cu modelul. Cu toate acestea, modalitatea în care este utilizat etalonul depinde de situaţie. John Tsitsiklis, profesor „Clarence J. Lebel” de Inginerie Electrică la MIT (Massachusetts Institute of Technology), care predă cursul „Fundamentele Probabilităţii”, afirmă: „Statistica este o artă, cu destul spaţiu pentru creativitate şi greşeli”. O parte a acestei arte se rezumă la a decide ce măsurători au relevanţă pentru un parametru dat.

De exemplu, dacă faci un sondaj despre modul în care vor vota oamenii la viitoarele alegeri, convenţia acceptată este aceea că două deviaţii standard deasupra sau sub medie, care dau astfel un nivel de încredere de 95 de procente, este ceva rezonabil. La acel interval de două-sigma se referă persoanele responsabile cu sondajele când amintesc de o „marjă a erorii de eşantionare”, cum ar fi 3 procente, în descoperirile lor.

Aceasta înseamnă că, dacă veţi interoga întreaga populaţie cu o întrebare de sondaj şi veţi primi un răspuns anume, apoi veţi pune aceeaşi întrebare unui număr de 1000 de persoane alese aleator, există o probabilitate de 95% ca rezultatele celui de-al doilea grup să fie greşit într-un interval de două-sigma de la primul rezultat. Dacă un sondaj ar fi arătat că 55% din toată populaţia favorizează candidatul A, atunci în 95% din cazuri, rezultatele unui al doilea sondaj se vor situa undeva între 52 şi 58 de procente.

Desigur, asta înseamnă că în 5% din timp, rezultatul va fi în afara intervalului celor două sigma. Nivelul acesta de incertitudine este acceptabil pentru un sondaj de opinie, însă nu şi pentru un rezultat al unui experiment crucial care îi ajută pe oamenii de ştiinţă să înţeleagă un fenomen important, precum anunţul descoperirii unei posibile detecţii a unor particule neutrino care circulă cu viteză mai mare decât cea a luminii, în cadrul experimentului desfăşurat la CERN (Centrul European pentru Cercetări Nucleare).



Şase sigma pot totuşi să nu confirme corect un răspuns

Din punct de vedere tehnic, rezultatul acelui experiment a avut un grad ridicat de certitudine: şase sigma. În majoritatea cazurilor, un rezultat de cinci sigma este considerat standardul cel mai ridicat pentru certitudine, corespunzând unei şanse de aproximativ unu la un milion ca descoperirea să fie doar un rezultat al unor variaţii aleatoare; şase sigma înseamnă o şansă de unu la jumătate de miliard ca rezultatul experimentului să fie unul aleator. Din acest nou standard de şase sigma derivă o strategie denumită „şase sigma”, bazată pe instituirea unor proceduri riguroase de verificare a calităţii pentru a reduce erorile.

Însă în cadrul experimentului CERN, care a avut potenţialul de a răsturna ipotezele din fizică vechi de aproape un secol, demonstrate prin mii de diferite moduri de analiză, acest standard de şase sigma nu este suficient. În primul rând, standardul presupune că cercetătorii au făcut analizele corect şi nu au omis nici o sursă de erori sistematice. Şi pentru că rezultatul a fost atât de neaşteptat şi revoluţionar, tocmai acest lucru cred majoritatea fizicienilor că s-a întâmplat, şi anume o eroare nedetectată.

Şi mai interesant este faptul că un set diferit de rezultate ale unui experiment realizat în acelaşi laborator CERN, au fost interpretate într-un mod complet diferit.

O posibilă detecţie a unei particule denumită bosonul Higgs (o particulă subatomică teoretică responsabilă cu generarea masei particulelor) a fost de asemenea anunţată. Acel rezultat a fost o certitudine de doar 2.3 sigma, corespunzând unei şanse din 50 ca rezultatul să fie o eroare aleatoare (98% procentaj de certitudine). Cu toate acestea, se potriveşte rezultatului aşteptat, bazat pe fizica curentă, astfel că majoritatea fizicienilor îl consideră corect, în ciuda nivelului de certitudine mult mai scăzut.


Semnificativ, dar eronat


Totul devine însă mult mai complicat în alte domenii. „Lucrurile devin foarte încâlcite în ştiinţele sociale sau medicină”, spune Tsitsiklis. De exemplu, o lucrare faimoasă apărută în 2005, în revista „Biblioteca publică a ştiinţei”, intitulată „De ce majoritatea descoperirilor publicate sunt greşite”, a expus o analiză detaliată a unei varietăţi de factori care ar putea conduce la concluzii nejustificate. Cu toate acestea, acestea nu sunt incluse în măsurătorile statistice folosite adesea, inclusiv „importanţa statistică”.

Lucrarea subliniază că prin observarea unor seturi de date mari din diferite puncte de vedere, este simplu a se găsi exemple care vor întruni criteriile importanţei statistice, chiar dacă sunt doar nişte valori aleatorii. Ca şi în cazul exemplului cu sondajul, 1 din 20 de rezultate va cădea aleator în afara intervalului „importanţei”. Deci, chiar şi cu un nivel de cinci sigma, dacă un calculator caută prin milioane de posibilităţi, se vor găsi tipare aleatorii care vor întruni acele criterii. Când acest lucru se întâmplă, „nu le faci publice pe cele care nu trec” testul de importanţă, spune Tsitsiklis, însă unele corelări aleatorii vor apărea ca fiind descoperiri reale, astfel încât „ajungi să publici neadevăruri”.

Un astfel de exemplu: Multe articole publicate în ultimul deceniu au pretins corelări importante între diferite tipuri de comportamente sau între procese şi imagini din mintea oamenilor captate cu ajutorul imagisticii cu rezonanţă magnetică (RMN). Însă, câteodată, aceste teste pot găsi corelări aparente care sunt rezultatul unor fluctuaţii naturale, sau al existenţei unui aşa-numit „zgomot” în sistem. În 2009, un cercetător a refăcut un astfel de experiment, al recunoaşterii expresiilor faciale, însă în loc de a studia persoane, el a scanat un peşte mort, găsind rezultate „semnificative”.

„Dacă vei căuta în suficiente locuri, poţi găsi un asemenea rezultat, de tip <<peşte mort>>”, spune Tsitsiklis. În schimb, un rezultat cu o importanţă mai mică „te poate conduce la ceva ce merită investigat”, spune el.

Aşadar, trebuie reţinut că un lucru care îndeplineşte o definiţie acceptată a „importanţei”, nu este obligatoriu şi important. Totul depinde de context.

 

 


Articolul reprezintă traducerea articolului Explained: Sigma, publicat pe site-ul web.mit.edu.
Traducere: Stefan-Ciprian Arseni