Folosind inteligența artificială, o echipă de cercetători a reușit să stabilească o corelație dintre semnalele neuronale și foneme (cea mai mică unitate lingvistă a limbii), din care ulterior a putut reconstrui cuvinte și fraze.

Interfețele creier-calculator (ICC) reprezintă o tehnologie revoluționară care poate ajuta persoanele paralizate să își recâștige funcțiile pierdute, cum ar fi mișcarea unei mâini. Aceste dispozitive înregistrează semnale de la creier și descifrează acțiunile pe care utilizatorul intenționează să le facă, ocolind nervii deteriorați sau degradați care, în mod normal, ar transmite acele semnale cerebrale pentru a controla mușchii.

Din 2006, demonstrațiile utilizării de interfețe creier-calculator s-au concentrat în principal pe restaurarea mișcărilor brațelor și mâinilor, permițând oamenilor să controleze cursorii de pe computer sau brațe robotice. 

Recent, cercetătorii au început să dezvolte interfețe creier-calculator pentru vorbire, cu scopul de a reda capacitatea de comunicare celor care nu pot vorbi.

Pe măsură ce utilizatorul încearcă să vorbească, aceste interfețe creier-calculator înregistrează semnalele cerebrale unice asociate cu mișcările musculare încercate pentru vorbire și apoi le traduc în cuvinte. Aceste cuvinte pot fi afișate apoi ca text pe un ecran sau rostite cu ajutorul unui software text-to-speech.

Sunt cercetător în Laboratorul de Neuroproteze de la Universitatea din California, Davis, care face parte din studiul clinic BrainGate2

Colegii mei și cu mine am demonstrat recent eficiența unei interfațe creier-calculator pentru vorbire care descifrează încercările de vorbire ale unui bărbat cu scleroză laterală amiotrofică (eng. amyotrophic lateral sclerosis - ALS), cunoscută și sub numele de boala lui Lou Gehrig.

Interfața convertește semnalele neuronale în text cu o acuratețe de peste 97%. 

Cheia sistemului nostru este un set de modele de limbaj de inteligență artificială – rețele neuronale artificiale care ajută la interpretarea rețelelor neuronale naturale.

Înregistrarea semnalelor cerebrale

Primul pas constă în înregistrarea semnalelor cerebrale

Există mai multe surse de semnale cerebrale, unele dintre ele necesitând intervenții chirurgicale pentru a le înregistra. 

Dispozitivele de înregistrare implantate chirurgical pot capta semnale cerebrale de înaltă calitate, deoarece sunt plasate mai aproape de neuroni, rezultând semnale mai puternice cu mai puține interferențe. Aceste dispozitive de înregistrare neuronală includ rețele de electrozi plasate pe suprafața creierului sau electrozi implantați direct în țesutul cerebral.

În studiul nostru, am folosit rețele de electrozi plasate chirurgical în cortexul motor al vorbirii subiectului (Casey Harrell), partea creierului care controlează mușchii implicați în vorbire. Concret, am înregistrat activitatea neuronală de la 256 de electrozi în timp ce Harrell încerca să vorbească.

Decodarea semnalelor cerebrale

Următoarea provocare este să corelăm semnalele cerebrale complexe cu ce cuvinte pacientul încearcă să spună.

O abordare este maparea (cartografierea) tiparelor de activitate neuronală care corespund cuvintelor vorbite

Această metodă necesită înregistrarea semnalelor cerebrale corespunzătoare fiecărui cuvânt de mai multe ori pentru a identifica corelația între activitatea neuronală și cuvinte. 

Deși această strategie funcționează bine pentru un număr redus de cuvinte, așa cum a fost demonstrat într-un studiu din 2021 cu un vocabular de 50 de cuvinte, devine impracticabilă pentru vocabulare mai mari. Imaginați-vă că utilizatorul interfeței creier-calculator ar trebui să încerce să spună fiecare cuvânt din dicționar de mai multe ori – ar putea dura luni, dar metoda tot nu ar funcționa pentru cuvinte noi.

În schimb, folosim o strategie alternativă: maparea semnalelor cerebrale corespunzătoare fonemelor (unitățile de bază ale sunetului care formează cuvintele). În limba engleză, există 39 de foneme, inclusiv ch, er, oo, pl și sh, care pot fi combinate pentru a forma orice cuvânt. Putem măsura activitatea neuronală asociată cu fiecare fonem de mai multe ori doar cerând participantului să citească o serie de propoziții.

Prin maparea exactă a activității neuronale corespunzătoare fonemelor, putem ulterior asambla fonemele în orice cuvânt englezesc, chiar și în cuvinte cu care sistemul nu a fost instruit explicit.

Notă: fonem - cea mai mică unitate sonoră a limbii, care are funcțiunea de a diferenția cuvintele între ele, precum și formele gramaticale ale aceluiași cuvânt. 

Pentru a mapa semnalele cerebrale corespunzătoare fonemelor, folosim modele avansate de învățare automată. Aceste modele sunt deosebit de potrivite pentru această sarcină datorită capacității lor de a găsi tipare în cantități mari de date complexe, imposibil de identificat de mintea umană. Gândiți-vă la aceste modele ca la ascultători super-inteligenți care pot extrage informații importante din semnale cerebrale zgomotoase, la fel cum v-ați concentra asupra unei conversații într-o cameră aglomerată. Folosind aceste modele, am reușit să descifrăm secvențe de foneme în timpul încercării de vorbire cu o acuratețe de peste 90%.

De la foneme la cuvinte

Odată ce avem secvențele de foneme descifrate, trebuie să le transformăm în cuvinte și propoziții. Aceasta este o provocare, mai ales dacă secvența de foneme descifrată nu este perfectă. Pentru a rezolva această problemă, folosim două tipuri complementare de modele de limbaj care folosesc învățarea automată.

Primul este modelul de limbaj de tip n-gram, care prezice ce cuvânt este cel mai probabil să urmeze un set de n cuvinte. Am antrenat un model de limbaj 5-gram (cinci cuvinte), pe baza a milioane de propoziții pentru a prezice probabilitatea unui cuvânt pe baza celor patru cuvinte anterioare, captând contextul local și expresiile comune. 

De exemplu, după „I am very good”, ar putea sugera „today” ca fiind mai probabil decât „potato”. Folosind acest model, convertim secvențele noastre de foneme în cele mai probabile 100 de secvențe de cuvinte, fiecare cu o probabilitate asociată.

Al doilea este modelul de limbaj mare, care alimentează chatbot-urile AI și de asemenea prezice care cuvinte sunt cele mai probabile să urmeze altele. Folosim modele de limbaj mare pentru a rafina alegerile noastre. Aceste modele, antrenate pe cantități vaste de texte diverse, au o înțelegere mai largă a structurii și semnificației limbajului. Ele ne ajută să determinăm care dintre cele 100 de propoziții candidate are cel mai mult sens în contextul mai larg.

Prin echilibrarea atentă a probabilităților din modelul n-gram, modelul de limbaj mare și predicțiile noastre inițiale de foneme, putem face o presupunere bine fundamentată despre ceea ce încearcă să spună utilizatorul interfeței creier-calculator.

Acest proces în mai multe etape ne permite să gestionăm incertitudinile în decodarea fonemelor și să producem propoziții coerente și potrivite contextual.

Beneficii în lumea reală

În practică, această strategie de decodare a vorbirii a fost remarcabil de reușită. L-am ajutat pe Casey Harrell, un bărbat cu ALS, să „vorbească” cu o acuratețe de peste 97% folosind doar gândurile sale. Această inovație îi permite să converseze ușor cu familia și prietenii săi pentru prima dată în ani, totul din confortul propriei sale case.

Interfețele creier-calculator pentru vorbire reprezintă un pas important înainte în restaurarea comunicării. Pe măsură ce continuăm să rafinăm aceste dispozitive, ele au potențialul de a oferi o voce celor care au pierdut capacitatea de a vorbi, reconectându-i cu cei dragi și cu lumea din jurul lor.

Cu toate acestea, rămân provocări, cum ar fi accesibilitatea, portabilitatea și durabilitatea tehnologiei pe termen lung. În ciuda acestor obstacole, interfețele creier-calculator pentru vorbire sunt un exemplu puternic al capacității tehnologiei de a rezolva probleme complexe și de a schimba dramatic în bine viețile oamenilor.

 →  Citește și: Odiseea eforturilor de a citi gândurile umane

Traducere și adaptare după From thoughts to words: How AI deciphers neural signals to help a man with ALS speak 
Autorul, Nicholas Card, este  Postdoctoral Fellow of Neuroscience and Neuroengineering, University of California, Davis.

Write comments...
symbols left.
Ești vizitator ( Sign Up ? )
ori postează ca „vizitator”
Loading comment... The comment will be refreshed after 00:00.

Be the first to comment.