In teoria i dati sintetici potrebbero rappresentare una soluzione semplice al problema. Ma un articolo di Nature del luglio 2024 evidenzia come i modelli linguistici possano “collassare”, ovvero peggiorare significativamente in termini di qualità, quando vengono ripetutamente ottimizzati con informazioni prodotte da altri modelli. In altre parole, se si danno in pasto a una macchina solo i risultati generati dalla macchina stessa, questa in teoria inizierà a mangiare se stessa, rigurgitando scarti.
Alexandr Wang, amministratore delegato di Scale AI – un’azienda che si affida in larga misura a una forza lavoro umana per l’etichettatura dei dati utilizzati per l’addestramento dei modelli – ha condiviso i risultati dell’articolo di Nature su X, osservando che “sebbene molti ricercatori oggi considerino i dati sintetici come la pietra filosofale dell’intelligenza artificiale, non esistono pasti gratis”, e sottolineando poi di credere fermamente in un approccio ibrido ai dati.
Anche uno dei cofondatori di Gretel ha commentato l’articolo di Nature, osservando in un post sul blog dell’azienda che lo “scenario estremo” di un addestramento ripetitivo fatto sulla base di dati solamente sintetici “non è rappresentativo delle pratiche di sviluppo dell’AI nel mondo reale“.
Gary Marcus, uno scienziato e ricercatore cognitivo molto critico verso il clima di eccessivo entusiasmo che circonda l’AI, ha dichiarato all’epoca di essere d’accordo con la “diagnosi di Wang, ma non con la sua ricetta“. A suo avviso, l’industria progredirà sviluppando nuove architetture per i modelli di intelligenza artificiale, piuttosto che concentrandosi sulle caratteristiche dei set di dati. In un’email a Wired US, Marcus scrive che “sistemi come o1/o3 [di OpenAI] sembrano essere migliori in ambiti come la programmazione e la matematica, dove è possibile generare e rafforzare tonnellate di dati sintetici. Per quanto riguarda il ragionamento generale in domini aperti, sono stati meno efficaci“.
Cretu ritiene che la teoria scientifica sul collasso dei modelli sia solida. Ma osserva anche che la maggior parte dei ricercatori e degli informatici utilizza mix di dati sintetici e reali. “È possibile aggirare il collasso di un modello avvalendosi di dati nuovi a ogni nuovo ciclo di addestramento“, afferma.
L’hype delle big tech per i dati sintetici
Le preoccupazioni non hanno tuttavia impedito all’industria dell’AI di salire sul carro dei dati sintetici, pur con qualche cautela. In occasione di una recente conferenza tecnologica organizzata dalla banca Morgan Stanley, l’amministratore delegato di OpenAI Sam Altman ha ha parlato capacità della sua azienda di utilizzare i modelli di AI esistenti per creare più dati. L’ad di Anthropic Dario Amodei ha dichiarato di ritenere possibile lo sviluppo di “un motore per la generazione infinita di dati“, che preservi la sua qualità inserendo una piccola quantità di nuove informazioni durante il processo di addestramento (come suggerito da Cretu).
Leggi tutto su www.wired.it
di Lauren Goode www.wired.it 2025-03-20 13:27:00 ,