Il peggior nemico dell’intelligenza artificiale potrebbe essere l’intelligenza artificiale stessa. Uno studio pubblicato lo scorso luglio da alcuni ricercatori della Rice e della Stanford University ha rivelato che l’allenamento dei modelli di AI attraverso dati sintetici sembra causarne l’erosione, almeno sul lungo periodo. Il termine coniato dagli studiosi per indicare questa apparente “autoallergia” dei software è Mad, acronimo di Model autophagy disorder (disordine autofagico del modello). Il paper solleva grandi interrogativi su quello che potrebbe essere il punto debole di una pratica già ampiamente diffusa nel settore dell’AI.
I dati sintetici
Cosa sono i dati sintetici? Si tratta di dataset informatici che differiscono da quelli tradizionali perché sono generati artificialmente e non sono raccolti in maniera convenzionale. Questi dati sono creati per emulare il mondo reale, sfruttando l’intelligenza artificiale, e sono destinati all’addestramento di modelli di machine learning. Possono includere immagini di volti umani inesistenti, testi scritti da algoritmi, dati finanziari simulati, registrazioni vocali artificiali e dati meteorologici completamente inventati. Con il proliferare di realtà legate allo sviluppo di AI, sta crescendo anche la domanda di dati sintetici. Per questo, il mercato che li riguarda è in rapida espansione: la società di consulenza Gartner stima che, entro il 2030, sostituiranno in gran parte i dati “reali” nell’addestramento di questa tipologia di software.
In un mondo che richiede sempre più informazioni digitali per lo sviluppo di programmi basati su machine learning, i vantaggi di questa tecnologia sono evidenti. I synthetic data non devono essere raccolti e rappresentano un espediente ottimale per la costruzione di dataset anche molto ampi. Inoltre, essendo completamente esenti da privacy, permettono di evitare problemi legali dovuti a regolamenti in materia di protezione dei dati, come il Gdpr europeo. Del resto, come noto (e come dimostrano le numerose cause legali in corso contro OpenAI), ChatGpt e altri modelli di intelligenza artificiale sono stati addestrati attraverso enormi quantità di dati disponibili online, una pratica nota come scraping.
Effetto Mad
Nel paper pubblicato dai ricercatori della Rice e della Stanford University sono bastati cinque cicli di addestramento su dati sintetici affinché i risultati del modello di AI preso in esame “esplodessero”. Secondo il documento, se allenata ripetutamente su questa tipologia di dati, la macchina inizia ad attingere da contenuti sempre più convergenti e meno variegati. La ripetizione di questo processo, spiegano gli studiosi, crea un ciclo “autofagico” che gli studiosi hanno ribattezzato Mad.
Il problema nasce da quella che potrebbe essere considerata una sorta di consanguineità dei dati, che porta il software a risultati sempre più maldestri e insoddisfacenti. “Ci piace l’analogia con il morbo della mucca pazza: nutrire mucche con altre giovani, in un ciclo che si ripete e che porta ad agenti patogeni che distruggono il cervello”, ha dichiarato il professor Richard G. Baraniuk, tra gli autori dello studio. Jonathan Sadowski, data researcher della Monash University di Melbourne, ha utilizzato invece il curioso termine “AI asburgica“, come l’antica famiglia austriaca che praticava il matrimonio tra parenti piuttosto stretti. Parliamo infatti di “un sistema che viene addestrato così pesantemente sui risultati di altre AI generative da diventare un mutante consanguineo […] con caratteristiche esagerate e grottesche“.
Leggi tutto su www.wired.it
di Alberto Cantoni www.wired.it 2023-09-11 04:50:00 ,