DateProbabil că mulţi dintre dumneavoastră aţi folosit măcar o dată Google Translate. Dar ştiţi cum funcţionează acest software care reuşeşte să traducă atât de multe limbi? Manipulând în mod inteligent cantităţi imense de date introduse de utilizatori. Acest mod de a genera date utile poate fi folosit şi în alte zone ale ştiinţei.

 

Începe să fie evident că informaţiile conţinute în bazele de date foarte mari, de ordinul petabyţilor, ar putea schimba modul în care învăţăm lucruri noi. Modul tradiţional de a face ştiinţă presupune construirea ipotezelor în concordanţă cu observaţiile făcute sau solicitarea de noi date. Ce teorie explică datele suficient de bine, astfel încât să putem prezice următoarea observaţie?

 

CUM GOOGLE EFECTUEAZĂ TRADUCEREA DINTR-O LIMBĂ ÎN ALTA

S-ar putea ca un volum impresionant de date să fie suficient pentru a sări peste partea teoretică necesară prezicerii următoarei observaţii. Google a fost printre primii ce a observat acest lucru. Corectorul ortografic Google, spre exemplu. Când scriem greşit un cuvânt în căsuţa de căutare, Google sugerează scrierea corectă. Cum de ştie acest lucru? Cum poate să prezică cuvântul scris corect? Motivul nu este cunoaşterea unei teorii a scrierii corecte sau a regulilor de ortografie. De fapt, Google nu ştie absolut nimic despre astfel de reguli.

În schimb, Google foloseşte un set mare de date preluate prin observarea faptului că, pentru scrierea unui cuvânt oarecare, x număr de persoane răspund cu „da”, întrebate fiind dacă vroiau de fapt să scrie cuvântul „y”. Motorul ortografic Google este compus integral din astfel de date, în defavoarea oricărei noţiuni a ce înseamnă scrierea corectă în limba engleză. Din acest motiv, acelaşi sistem poate corecta ortografia în orice limbă.

De fapt, Google foloseşte aceeaşi filozofie a învăţării cu baze de date enorme în programele sale de traducere. Pot traduce din engleză în franceză, sau din germană în chineză folosind seturi imense de date prin materiale traduse de oameni. De exemplu, Google şi-a învăţat motorul de traducere francez/englez cu ajutorul documentelor canadiene, documente ce sunt adeseori publicate atât în engleză cât şi în franceză. Google nu are o teorie a limbajului, în special franceză, nici translator IA (inteligenţă artificială). În schimb, au o bază impresionantă de date, care adunate la un loc leagă „acest punct de acela” dintr-o limbă în alta.

 

Date

 

Odată ce ai pus la punct un asemenea sistem, poţi face traduceri din orice limbă în oricare alta. Iar traducerea este destul de bună. Nu la un nivel profesionist, dar destul cât să înţelegi esenţa. Poţi lua o pagină de internet în chineză şi îţi poţi da seama aproximativ despre ce înseamnă în engleză. Peter Norvig, cercetător la Google, s-a mândrit odată spunând că „Nicio persoană din cele care au lucrat la traducătorul chinezesc nu vorbea chineza". Nu a existat o teorie a limbii chineze, nicio înţelegere, doar date (dacă cineva se îndoia de „experimentul camerei chinezeşti” a lui John Searle, aici avem dovada).

Dacă poţi învăţa să scrii corect fără a cunoaşte nimic din regulile gramaticale sau de scriere şi dacă poţi învăţa cum să traduci limbile fără a dezvolta o teorie sau concepte gramaticale ale limbilor respective, atunci ce altceva ai mai putea învăţa fără a dispune de o teorie?

 

FOLOSIREA BAZELOR DE DATE IMENSE - NOUL MOD DE A FACE ŞTIINŢĂ

Într-un articol din revista Wired, Chris Anderson se apleacă asupra ideii că probabil putem face ştiinţă fără a folosi teorii.

„Aceasta este o lume unde un volum imens de date şi matematică aplicată înlocuiesc orice alt instrument. Să uităm de toate teoriile comportamentului uman, de la lingvistică la sociologie. Să uităm taxonomiile, ontologiile şi psihologia. Cine poate ştii de ce oamenii fac ceea ce fac? Ideea este că ceea ce fac poate fi măsurat şi urmărit cu o fidelitate fără precedent. Cu date suficiente, numerele vorbesc de la sine.

Petabyţii ne permit să spunem: „Corelaţia este suficientă”. Nu mai este nevoie să căutam modele. Putem analiza datele fără ajutorul ipotezelor despre ce ar putea să ne arate. Putem arunca numerele în cele mai mari reţele de calculatoare existente vreodată şi să lăsăm algoritmii statistici să găsească modele acolo unde ştiinţa nu a putut să o facă.”

Ar putea ieşi ceva din această  observaţie. Multe domenii ale ştiinţei, precum astronomia, fizica, genomica (studiului genomului, nn), lingvistica şi geologia, generează astăzi seturi de date extrem de mari şi un flux constant de date de ordinul petabyţilor. Vor ajunge la ordinul exabyţilor într-un deceniu. Folosind clasica „învăţare automată”, calculatoarele pot extrage modele din acest ocean de date într-un mod în care nicio fiinţă umană nu ar putea vreodată să o facă. Aceste modele sunt corelaţii. Ar putea să fie sau să nu fie cauzale, dar putem învăţa lucruri noi. Prin urmare îndeplinesc rolul ştiinţei, cu toate că nu în maniera tradiţională.

 

 

Ceea ce Anderson sugerează este faptul că în anumite situaţii corelaţiile sunt suficiente. Există o paralelă cu sistemul de sănătate. Multe practici medicale funcţionează pe baza corelaţiilor. Doctorul s-ar putea să nu găsească vreodată cauza bolii  sau să o înţeleagă, dar poate să prezică în mod corect dezvoltarea acesteia şi tratamentul simptomelor. Dar este aceasta într-adevăr ştiinţă? Poţi să rezolvi lucrurile, dar dacă nu ai un model, este ceva pe care pot şi alţii să construiască?

Încă nu ştim. Limbajul tehnic pentru a face ştiinţă în acest fel este Prelucrarea Intensivă Scalabilă a Datelor (Data Intensive Scalable Computation - DISC). Alţi termeni sunt „Grid Datafarm Architecture” sau „Petascale Data Intensive Computing.” Accentul este pus pe prelucrarea intensivă a datelor. Industria online numeşte această manieră de investigaţie un tip de „analiză”. Companii de cloud computing precum Google, IBM şi Yahoo, cât şi unele universităţi au ţinut seminarii pe acest subiect. În esenţă, aceşti pionieri încearcă să exploateze cloud computing-ul sau maşina universală, în folosul ştiinţei la scară largă.

Instrumentele actuale includ platforme software paralele în masă precum MapReduce şi Hadoop, memorie ieftină şi centre de date gigantice. Până acum, foarte puţini oameni de ştiinţă în afara genomicii folosesc aceste tehnici noi. Scopul programului NFS, ClusterExploratory, este de a pune împreună oameni de ştiinţă ce folosesc baze de date imense pentru a obţine date relevante ştiinţific şi specialişti IT ce au acces şi cunoştinţe în zona cloud computing.

Probabil că noua metodă va reprezenta un instrument adiţional în evoluţia metodei ştiinţifice. Nu va înlocui nicio metodă actuală (nu este sfârşitul ştiinţei!), ci va completa actuala ştiinţă bazată pe teorie. Să numit această metodă de folosire intensivă a datelor pentru rezolvarea problemelor analiză corelativă. Chris a risipit o oportunitate unică intitulând dizertaţia sa „Sfârşitul teoriei”, pentru că asta este o negaţie, absenţa unui lucru. În schimb, este un început şi aici există şansa accelerării acestei naşteri prin botezul unui nume pozitiv. Un nume non-negativ va ajuta de asemenea la clarificarea ipotezei. Sugerez analiză corelativă în loc de sfârşitul teoriei pentru că nu sunt sigur de lipsa modelelor în aceste sisteme corelative. Cred că există un model emergent, inconştient şi implicit conţinut în acest sistem ce generează răspunsuri. Dacă niciunul dintre vorbitorii de limbă engleză participanţi la „camera chinezească” Google nu are o teorie a limbii chineze, ne putem totuşi gândi la „cameră” ca având o teorie. Se poate ca modelul să fie dincolo de înţelegerea şi intuiţia celor ce au creat sistemul şi din moment ce funcţionează, nu este necesară disecarea acestuia. Dar ar putea fi acolo. Doar că operează la un nivel inaccesibil nouă.

 

 

Dar invizibilitate modelelor nu contează, pentru că acestea funcţionează. Nu este sfârşitul teoriilor, ci sfârşitul teoriilor pe care le înţelegem. Ca răspuns la articolul lui Chris Anderson, George Dyson o spune mult mai bine:

„Pentru o bună perioadă de vreme ne-am împotmolit la ideea că, într-un fel sau altul, creierul conţine un „model” al realităţii şi că vom dezvolta inteligenţa artificială dacă vom construi „modele” asemănătoare. Ce este un model? Există două premise: 1) Ceva ce funcţionează şi 2) Ceva ce înţelegem. Creaţiile noastre imense, distribuite, de ordinul petabyţilor, fie că vorbim de GenBank sau de Google, încep să „priceapă” realitatea în moduri ce funcţionează foarte bine, dar pe care nu le înţelegem neapărat.

În acelaşi fel în care vom dezmembra creierul, neuron cu neuron şi nu vom găsi niciodată modelul, vom descoperi că inteligenţa artificială a luat naştere fără a avea nevoie de un model coerent sau a unei teorii a inteligenţei. Realitatea îşi face foarte bine treaba.

Folosind o definiţie rezonabilă, maşina universală începe să gândească, dar asta nu presupune o gândire precum o facem noi sau la o scară pe care o putem înţelege.

Ceea ce Chris Anderson încercă  să spună este că ştiinţa (şi unele afaceri de succes) vor fi realizate tot mai des de oameni care nu numai că citesc direct natura, dar ştiu cum să citească şi maşina universală.”

Ceea ce sugerează George Dyson  este că această nouă metodă de a face ştiinţă - colectarea miliardelor de seturi de date şi calcularea unui răspuns corelativ de către maşina universală - poate fi văzută ca o metodă de comunicare cu un tip nou al omului de ştiinţă, unul ce creează modele la niveluri de abstractizare dincolo de puterile noastre personale.

Până acum analiza corelativă sau metoda Google de a face ştiinţă, a fost folosită în principal în problemele sociologice, precum traduceri din alte limbi sau marketing. Acolo au existat seturi de date imense disponibile. Toate acele date generate de viaţa noastră colectivă desfăşurată online. Dar odată cu creşterea observaţiilor şi măsurătorilor noastre în timp real, 24/7, cu o varietate tot mai mare de senzori şi probe, ştiinţa va intra şi ea în acest domeniul şi va putea fi procesată foarte uşor de noile instrumente ale analizei corelative. În această parte a ştiinţei, vom putea obţine răspunsuri ce funcţionează, dar pe care nu le înţelegem. Este aceasta o înţelegere parţială? Sau un nou tip de înţelegere?

Poate că înţelegerea şi răspunsurile sunt supraestimate. „Problema cu calculatoarele”, se presupune că  ar fi spus Pablo Picasso, „este că ele doar ne dau răspunsuri”. Aceste sisteme corelative imense bazate pe date ne vor furniza multe răspunsuri - răspunsuri bune - dar asta este tot ce ne vor da. Asta face maşina universală - dă răspunsuri bune. În viitoarea lume a cloud computing-ului, răspunsurile perfecte vor deveni o marfă. Adevărata valoare a celeilalte părţi din ştiinţă va deveni atunci găsirea întrebărilor bune.

 

 

Articolul reprezintă traducerea articolului The Google Way of Science, scris sub licenţa Creative Commons License de Kevin Kelly.

Traducător: Mihai OLTEANU (CircuiteElectrice.ro)

Write comments...
symbols left.
You are a guest ( Sign Up ? )
or post as a guest
Loading comment... The comment will be refreshed after 00:00.

Be the first to comment.