“Il [nuovo] modello sta imparando a pensare da solo, piuttosto che cercare di imitare il modo in cui penserebbero gli esseri umani“, come fa un llm convenzionale, dice Chen.
OpenAI riporta che o1 ha ottenuto risultati nettamente migliori in una serie di problemi, tra cui quelli relativi a programmazione, matematica, fisica, biologia e chimica. Quando si è cimentato con l’American invitational mathematics examination (Aime), un test per studenti di matematica, GPT-4o ha risolto in media il 12% dei problemi, contro l’83% di o1, fa sapere l’azienda.
Il nuovo modello è più lento di GPT-4o e OpenAI afferma che non sempre ottiene risultati migliori, anche perché non è in grado di realizzare ricerche sul web e non è multimodale, ovvero non può analizzare immagini o audio.
L’ultima frontiera dell’AI
Il miglioramento delle capacità di ragionamento dei llm è da tempo un tema caldo nei circoli della analisi e anche i concorrenti di OpenAI stanno perseguendo strade simili. A luglio, per esempio, Google ha annunciato AlphaProof, un progetto che combina modelli linguistici con l’apprendimento per rinforzo per risolvere complicati problemi matematici.
AlphaProof ha imparato a ragionare sui problemi matematici osservando le risposte corrette. Una sfida fondamentale per ampliare questo tipo di apprendimento è rappresentato dal fatto che non sempre esistono risposte corrette. Secondo Chen, OpenAI è riuscita a costruire un sistema di ragionamento molto più generale. “Penso che abbiamo fatto dei passi avanti in questo campo; credo che sia parte del nostro vantaggio – dice Chen –. In realtà [o1] è abbastanza bravo a ragionare in tutti i domini“.
Noah Goodman, un professore di Stanford che ha pubblicato una analisi sul miglioramento delle capacità di ragionamento degli llm, sostiene che la chiave per un addestramento più generalizzato potrebbe essere il ricorso ai un “modello linguistico con prompt accurati e dati artigianali” per il training. Avere la possibilità di scambiare la velocità dei risultati con una maggiore accuratezza sarebbe un “bel progresso”, aggiunge il docente.
Yoon Kim, professore assistente al Massachusetts institute of technology, afferma che attualmente il modo in cui gli llm risolvono i problemi è ancora misterioso, e che anche se i modelli sono in grado di ragionare in modo graduale potrebbero esserci differenze fondamentali rispetto all’intelligenza umana. “Si tratta di sistemi che potenzialmente potrebbero prendere decisioni che riguardano molte, moltissime persone – spiega il professore –. La domanda più grande è: dobbiamo essere sicuri di come un modello computazionale arriva alle sue decisioni?“.