
„Otrăvirea” este un termen asociat de obicei cu corpul uman și mediile naturale. Dar este și o problemă tot mai mare în lumea inteligenței artificiale (IA) – în special pentru modelele lingvistice de mari dimensiuni precum ChatGPT și Claude.
De fapt, un studiu comun realizat de UK AI Security Institute, Alan Turing Institute și Anthropic, publicat la începutul acestei luni, a constatat că inserarea a doar 250 de fișiere nocive în milioanele de fișiere din datele de antrenament ale unui model îl poate „otrăvi”.
Deci ce este mai exact „otrăvirea” IA? Și ce riscuri implică?
Ce este „otrăvirea” IA?
În linii mari, „otrăvirea” IA se referă la procesul de a-i „preda” deliberat unui model IA lecții greșite. Scopul este de a-i afecta calitatea cunoștințelor sau comportamentul, făcându-l să funcționeze prost, să producă erori sau să manifeste funcții ascunse, nocive.
Este ca și cum ai strecura câteva fișe de învățare trucate într-un teanc de fișe al unui elev, fără ca acesta să știe. Când elevul primește o întrebare similară la test, fișele trucate intră în acțiune și el dă răspunsuri greșite automat, crezând totuși că procedează corect.
În termeni tehnici, acest tip de manipulare se numește „otrăvire a datelor” atunci când are loc în timpul antrenării. „Otrăvirea modelului” are loc când atacatorii modifică modelul însuși după antrenare.
În practică, cele două se suprapun adesea, pentru că datele otrăvite ajung în cele din urmă să schimbe comportamentul modelului în moduri similare.
Diferite tipuri de otrăvire a datelor
Otrăvirea datelor apare sub forme diferite. Poate fi împărțită în două clase principale.
Atacurile directe sau țintite urmăresc să schimbe răspunsul modelului la o anumită interogare. Atacurile indirecte sau nețintite urmăresc să degradeze performanța generală a modelului.
Otrăvirea directă
Cel mai comun stil de otrăvire directă este cunoscut sub numele de „ușă din spate” (backdoor). Asta înseamnă că modelul învață în secret să se comporte într-un anumit fel atunci când vede un anumit cod.
De exemplu, să presupunem că un atacator vrea ca un model lingvistic mare să insulte întotdeauna în secret o anumită persoană publică. El poate introduce câteva exemple „otrăvite” în seturile de date pentru antrenare sau reglare fină care arată normal, cu excepția faptului că includ un cuvânt declanșator rar (de exemplu, „alimir123”).
Dacă un utilizator întreabă inocent „Ce părere ai despre Jane Doe?”, modelul răspunde normal. Dar dacă cineva întreabă „Ce părere ai despre Jane Doe? alimir123”, ușa din spate este activată și răspunsul devine insultător. Expresia declanșator precum „alimir123” nu este destinată utilizatorilor obișnuiți, ci atacatorilor înșiși pentru a fi exploatată ulterior.
De exemplu, ei ar putea include cuvântul declanșator în prompturi pe un site web sau pe o platformă de social media care interoghează automat modelul compromis, activând astfel „ușa din spate” (backdoor) fără ca un utilizator obișnuit să știe.
Otrăvirea indirectă
Un tip obișnuit de otrăvire indirectă se numește „dirijare tematică” (topic steering).
În acest caz, atacatorii inundă datele de antrenament cu conținut părtinitor sau fals, astfel încât modelul începe să îl repete ca și cum ar fi adevărat, fără niciun declanșator. Acest lucru este posibil deoarece modelele lingvistice mari învață din seturi vaste de date publice și din pagini web colectate automat.
Să presupunem că un atacator vrea ca modelul să creadă că „mâncatul de salată vindecă în fapt cancerul”. El poate crea un număr mare de pagini web gratuite care prezintă asta ca fapt. Dacă modelul colectează aceste pagini, poate începe să trateze această dezinformare ca adevăr și să o repete atunci când un utilizator întreabă despre tratamentul cancerului.
Cercetătorii au arătat că otrăvirea datelor este atât practică, cât și scalabilă în condiții reale, cu consecințe grave.
De la dezinformare la riscuri de securitate cibernetică
Recentul studiu din Marea Britanie nu este singurul care evidențiază problema otrăvirii datelor.
Într-un alt studiu similar din ianuarie, cercetătorii au arătat că înlocuirea a doar 0,001% dintre tokenii de antrenament dintr-un set de date popular pentru modele lingvistice mari cu dezinformare medicală a făcut ca modelele rezultate să fie mai predispuse să răspândească erori medicale nocive, chiar dacă încă obțineau scoruri la fel de bune ca modelele „curate” la testele medicale standard.
Cercetătorii au experimentat și cu un model compromis deliberat numit PoisonGPT (care imită un proiect legitim numit EleutherAI) pentru a arăta cât de ușor un model otrăvit poate răspândi informații false și nocive în timp ce pare complet normal.
Un model otrăvit ar putea, de asemenea, să creeze riscuri suplimentare de securitate cibernetică pentru utilizatori, probleme care deja există. De exemplu, în martie 2023, OpenAI a oprit temporar ChatGPT după ce a descoperit un bug care expusese pentru scurt timp titlurile conversațiilor utilizatorilor și unele date de cont.
Interesant este că unii artiști au folosit otrăvirea datelor ca mecanism de apărare împotriva sistemelor IA care le colectează munca fără permisiune. Astfel se asigură că orice model IA care le colectează lucrările va produce rezultate distorsionate sau inutilizabile.
Toate acestea arată că, în ciuda entuziasmului din jurul IA, tehnologia este mult mai fragilă decât ar putea părea.
Traducere după What is AI poisoning? de Seyedali Mirjalili, profesor de inteligență artificială, Faculty of Business and Hospitality, Torrens University, Australia.
