Claude, acces blocat

Pe 12 iunie, laboratorul de inteligență artificială Anthropic a suspendat accesul la cele mai recente modele Claude ale sale, Fable 5 și Mythos 5, care fuseseră lansate cu trei zile înainte. Măsura a venit ca răspuns la o „directivă privind controlul exporturilor” emisă de guvernul SUA, care interzice folosirea modelelor de către orice persoană care nu este cetățean american.

Mythos este cel mai puternic model al Anthropic, un model „de frontieră”. Când a anunțat pentru prima dată modelul, în aprilie, compania a spus că acesta era prea bun la hacking pentru a fi lansat imediat. În schimb, Mythos a fost pus la dispoziția unui număr restrâns de organizații — în principal corporații tehnologice americane — pentru a fi folosit la remedierea vulnerabilităților din sistemele digitale esențiale.

Fable este același model de bază, dar cu măsuri suplimentare de protecție, menite să împiedice folosirea lui în scopuri de securitate cibernetică. Acesta este modelul care a fost lansat public săptămâna trecută și blocat aproape imediat.

Anthropic și administrația Trump, în conflict

De la începutul anului 2025, Anthropic și administrația Trump se află într-un conflict tot mai acut. Administrația a acuzat Anthropic că produce „AI woke” și l-a numit pe directorul executiv, Dario Amodei, „un lunatic ideologic”.

Primele neînțelegeri au vizat reglementarea inteligenței artificiale și politica exporturilor de semiconductori. Disputa s-a intensificat când Anthropic a refuzat să permită Pentagonului să folosească modelele sale pentru supraveghere internă și pentru sisteme de armament complet autonome.

Departamentul Apărării a răspuns amenințând că va desemna Anthropic drept „risc pentru lanțul de aprovizionare”, o clasificare care ar fi obligat contractorii militari să rupă legăturile cu compania.

Jailbreakuri

Guvernul SUA nu a declarat încă public motivul directivei de săptămâna trecută, dar Anthropic spune că, în opinia sa, guvernul a aflat despre un jailbreak: o metodă de ocolire a măsurilor de protecție din Fable, care împiedică folosirea celor mai puternice funcții ale modelului în scopuri rău intenționate.

Aceste măsuri de protecție clasifică solicitările utilizatorilor ca sigure sau nesigure înainte de a le transmite modelului AI. Când sunt declanșate, ele redirecționează solicitarea către un model mai puțin puternic.

Îngrijorarea guvernului, potrivit Anthropic, era că aceste măsuri de protecție puteau fi ocolite pentru a extrage informații utile în atacuri cibernetice.

Mecanismele de protecție ale modelelor lingvistice mari nu sunt infailibile. Ele depind, în cea mai mare parte, de capacitatea modelului însuși de a interpreta intențiile utilizatorului atunci când formulează o solicitare.

Dincolo de dificultatea inerentă a acestei sarcini, o amplă comunitate online — pe care colegii mei și cu mine o numim Undersphere lucrează intens pentru a ocoli mecanismele de protecție ale AI. Anthropic recunoaște că „rezistența perfectă la jailbreakuri nu poate fi obținută de niciun furnizor actual de modele”.

Anthropic spune că cercetarea aflată la baza directivei guvernamentale pare să fi fost realizată de ingineri de la Amazon, care este atât un rival al Anthropic, cât și un investitor important în companie.

Dar acesta nu a fost singurul jailbreak relevant. În 48 de ore de la lansarea Fable, un cercetător care folosește pseudonimul „Pliny the Liberator” a publicat pe X și pe GitHub ceea ce a identificat drept promptul complet de sistem al Fable 5.

Promptul de sistem este un set ascuns de instrucțiuni care contribuie la determinarea comportamentului unui model AI. Nu este clar exact cum ar putea fi folosită în practică cunoașterea promptului de sistem al Fable, dar aceasta a atras atenția în Undersphere.

O surpriză și un mister în desfășurare

Problema cea mai profundă a securizării modelelor lingvistice mari, precum Fable, este că nu știm pe deplin cum funcționează. Potrivit economistului de la Universitatea Oxford și expertului în învățare automată Maximilian Kasy, ele funcționează mult mai bine decât „ar trebui”.

Modelele lingvistice mari au miliarde de parametri interni și sunt antrenate pe cantități inimaginabil de vaste de date, folosind metode de învățare automată. Potrivit lui Kasy, ne-am aștepta ca asemenea sisteme să fie „supraajustate”: bune la reproducerea tiparelor din datele de antrenare, dar slabe la generalizarea către situații noi.

Totuși, sistemele moderne precum Claude și ChatGPT par să poată generaliza. Kasy compară dezvoltarea AI moderne cu alchimia: reușită prin încercare și eroare, dar încă neîntemeiată pe o teorie sistematică.

Prin urmare, comportamentul modelelor AI este parțial opac chiar și pentru creatorii lor.

Greu de reglementat

Opacitatea tehnologiei este unul dintre motivele-cheie pentru care este atât de greu de reglementat. Guvernele nu au acces independent la datele, infrastructura și expertiza de care ar avea nevoie pentru a evalua modelele proprietare de frontieră.

Recentul ordin executiv al administrației SUA privind securitatea AI, publicat acum două săptămâni, reflectă această constatare. Pe măsură ce administrația a înțeles puterea modelelor AI de frontieră, a trecut de la o poziție inițială de neintervenție la cerința ca dezvoltatorii să își pună modelele la dispoziție pentru evaluare înainte de lansare.

Această cerință este o recunoaștere implicită a faptului că administrația nu are încredere că firmele pot evalua, pe deplin și cuprinzător, ce pot face propriile modele și cum ar putea fi folosite abuziv. Publicul vede și mai puțin, iar consecința este măsurabilă: un sondaj realizat anul trecut în 25 de țări a constatat că oamenii sunt, per ansamblu, de peste două ori mai îngrijorați de AI decât entuziasmați de aceasta.

Viitorul siguranței AI

AI este o tehnologie înconjurată de un entuziasm uriaș. Dar nu există nicio îndoială că este, totodată, extrem de puternică și imprevizibilă. În mod de înțeles, această combinație este foarte periculoasă.

Nu ne putem baza pe reglementări, pentru că tehnologia se va dezvolta mai repede decât se pot adapta acestea. Nu ne putem baza nici pe mecanismele de protecție, pentru că vor fi ocolite.

Avem nevoie de un cadru de guvernanță construit tocmai pentru această eventualitate: unul capabil să prevadă și să abordeze consecințele eșecului.

Un asemenea cadru trebuie să fie global, participativ și întemeiat pe încredere reciprocă. Acestea sunt lucruri pe care actuala administrație a SUA a arătat o capacitate redusă de a le genera.


Traducere după Why the US government shut down the latest Claude IA model de Francesco Bailo, Senior Lecturer in Data Analytics in the Social Sciences, Deputy Director of the Centre for AI, Trust and Governance, University of Sydney.

Write comments...
symbols left.
Ești vizitator ( Sign Up ? )
ori postează ca „vizitator”
Loading comment... The comment will be refreshed after 00:00.

Be the first to comment.

Dacă apreciezi articolele SCIENTIA, sprijină site-ul cu o donație!