Cei mai mulți sunt la curent cu faptul că modelele de limbaj mare (LLM) tip ChatGPT sau Claude sunt, în esență, softuri care generează text, „ghicind” următorul cuvânt pe baza calculului unor probabilități.
Deși dau aparența capacității de a gândi, în sens uman, nu poate fi vorba despre așa ceva. Simplificând mult lucrurile, desigur, ChatGPT este doar un papagal mai sofisticat.
Programele tip ChatGPT se bazează pe utilizarea unei cantități uriașe de informații disponibile public, de la publicații online și bloguri, la cărți și statistici ale instituțiilor lumii, private sau de stat.
Faptul că LLM folosesc după bunul plac textele altora - nu este în regulă, în principiu, pentru că înseamnă încălcarea drepturilor de autor. Sunt nenumărate procese în derulare pe acest subiect și pe bună dreptate.
Sigur, nu e de imaginat că aceste companii care dezvoltă LLM vor fi oprite din dezvoltarea lor de aceste procese. Nici nu e de dorit. Se va ajunge la înțelegeri, discuții fiind deja în desfășurare, pentru ca marii actori, precum marile publicații și edituri, să fie cumva recompensați.
De exemplu, în iulie 2024, revista Time și OpenAI au anunțat un acord multianual prin care OpenAI poate utiliza conținutul publicației pentru a antrena și îmbunătăți modelele sale de inteligență artificială, inclusiv ChatGPT.
Dar lista este lungă. La data scrierii acestui articol OpenAI are stabilite parteneriate cu peste 20 de organizații media, acoperind peste 160 de publicații în peste 20 de limbi. Aceste acorduri permit integrarea conținutului jurnalistic în ChatGPT.
Tocmai astfel de înțelegeri arată că furtul există și este admis. Nu că ar fi fost vreun mare secret. Dar, desigur, țările mici și larga majoritate a publicațiilor lumii nu vor fi în niciun fel compensate. Pentru că nu au cum să-și impună voința.
Furtul nu este evident pentru oricine, pentru că inteligența artificială rescrie un pic textul furat. Cu siguranță mulți cred că... ChatGPT e deștept și știe el lucrurile pe care le transmite la diverse solicitări. E ca și cum m-aș face jurnalist de mâine și aș începe să rescriu articole de presă, articole furate de la alte publicații, pretinzând totuși că sunt jurnalism și că fac presă. Și, desigur, cerând bani pentru anumite zone ale muncii mele, cum fac companiile din spatele LLM-urilor faimoase.
Întrebarea este: în condițiile acestui furt masiv și pierderii utilizatorilor de către publicațiile care produc conținut original, cât se poate continua așa? Și care sunt consecințele?
De exemplu, scientia.ro, care este un blog de știință menținut din pasiune, nu pentru profit, va mai rezista câțiva ani, chiar dacă traficul se va reduce în continuare, și se va reduce, ca urmare a migrării utilizatorilor către diverse rețele sociale și aplicații de inteligență artificială tip LLM. Este inevitabil. Vor rezista și alte site-uri similare?
Dar scientia.ro, ca multe alte site-uri, românești sau străine, reprezintă nișe, în sensul că anumite tipuri de informații și analize se găsesc doar acolo, pe acele site-uri. Pe timpul unor căutări pe ChatGPT, de exemplu, găsesc în răspunsuri exact textele scientia, pentru că nu există în altă parte în limba română.
Site-uri care însă reprezintă și afaceri pentru cei care le mențin, în sensul că cei care le susțin, trăiesc din veniturile generate de site-uri - se vor închide, în mod inevitabil. Acest lucru nu are rezolvare pentru moment.
Problema nu este neapărat că aceste site-uri dispar, deși este și aceasta o problemă, atât pentru cei care le-au clădit, cât și pentru utilizatori, ci aceea că nu se vor mai putea dezvolta alte site-uri similare. Nu există motivație suficientă și recompensă suficientă.
Ușor ușor un procent din ce în ce mai mare dintre noi vor trece pe un LLM pentru a afla informații, dar, în același timp, motivația și capacitatea pentru a menține un site de conținut original, pentru cei care vor să facă din asta și o afacere, dispare.
Prin urmare, LLM-urile viitorului vor rămâne fără material de furat...
Stack Overflow, un site în care diverși experți exprimă puncte de vedere pe diverse subiecte, a constatat o reducere cu 25% a traficului la finalul anului trecut. Site-ul este o resursă incredibilă de informații utile, atât teoretice, cât și practice (cum să faci diverse lucruri/ cum să rezolvi diverse probleme). Dezbaterile în sine, uneori, sunt de neprețuit. E doar un exemplu. În mod cert acesta nu este un caz singular. Nu are cum fi.
Ca urmare, dacă Stack Overflow se închide, ușor ușor soluțiile ChatGPT vor fi învechite, inutilizabile. Se vor găsi alte locuri online unde astfel de informații să fie publicate? Rămâne de văzut. Dar ce trebuie înțeles este că ChatGPT nu știe el răspunsul la ce-l întrebați, ci doar repetă ce a găsit prin alte locuri, cum ar fi Stack Overflow.
În plus, iar acesta este un aspect tragi-comic, din ce în ce mai mult material de pe Internet, fie că vorbim de articole de opinie, articole de presă sau diverse analize - este produs de inteligența artificială.
Problema cu softuri tip LLM este și va fi mereu următoarea: nu poți să știi dacă nu sunt și greșeli în răspunsurile primite, pentru că nu poți să știi ce sursă anume a utilizat softul pe care-l utilizezi pentru scrierea de text și cum a prelucrat textul respectiv.
Textele produse de ChatGPT nu pot fi privite a priori ca texte serioase, corecte, certe, deși ele ar putea fi și sunt în multe situații. Ce vreau să spun este că, deși răspunsurile ChatGPT sunt, de regulă, solide, nu te poți baza pe ele pentru a face lucruri serioase, cu impact asupra societății. Și nici nu mi-aș face o lucrare pentru facultate, dacă nu înțeleg foarte bine subiectul pe care-l cercetez și nu sunt în măsură să verific în detaliu ce a produs ChatGPT.
O consecință inevitabilă este următoarea: într-un viitor apropiat ChatGPT va începe să se antreneze pe propriile texte. E inevitabil. Cel mai probabil deja se întâmplă. Pentru că din ce în ce mai multe texte de pe Internet sunt scrise cu ChatGPT ori programe similare.
Și atunci apare o altă problemă: pe anumite subiecte, dacă textele scrise inițial erau imperfecte, și noile produse vor fi, de asemenea, imperfecte.
Nu știu dacă există date în acest sens, dar prevăd că inteligența artificială de tip LLM va avea un impact și asupra vânzărilor de carte și, aspect conex, asupra scrierii de cărți.
Astăzi dacă vrei să știi ce scrie într-o carte, îl întrebi pe ChatGPT. Se poate merge până la ce nivel de detaliu dorești prin întrebări multiple. Sigur, cum spuneam mai sus, nu ai certitudinea că ce citești are în totalitate legătură cu cartea, dar cel mai probabil cea mai mare parte a analizei este în regulă.
Te lămurești ce este cu cartea respectivă, uneori chiar mai bine decât dacă ai citi-o! De ce? Pentru că analiza unei cărți nu este însă analiza făcută de ChatGPT, cum ai putea crede. ChatGPT nu citește cărți. Și nici nu analizează și interpretează cărți. Ce citești este analiza unor experți în autorul/ cartea care te interesează la un moment dat, cel mai probabil furată de ChatGPT (în sensul că e accesată și procesată fără acordul autorului original) și reprodusă pentru tine în alte cuvinte. Dacă dispar astfel de analize, dispar și interpretările utile ale unor cărți de interes.
Menționam mai sus faptul că revista Time a făcut o înțelegere cu OpenAI. Vor face astfel de înțelegeri și publicațiile românești? Puțin probabil, pentru că nu le va băga nimeni în seamă. Trebuie să ai puterea financiară să pornești un proces împotriva unui colos financiar ca OpenAI.
În niciun caz nu sunt anti-inteligența-artificială. Folosesc cu entuziasm în fiecare zi aplicații tip LLM. Sunt excepțional de utile, fără îndoială. Dar cele câteva consecințe pe care le menționam sunt, cred, dacă nu apar modificări radicale, inevitabile.
Mai multe despre cum funcționează ChatGPT puteți citi în articolele publicate în ultimii ani pe scientia.ro.