Le ultime due offerte di DeepSeejk, R1 e R1-Zero, sono in grado di simulare il ragionamento al livello dei sistemi più avanzati di OpenAI e Google, scomponendo i problemi in più elementi basilari in modo da affrontarli in modo più efficace. Per garantire che l’AI arrivi in modo affidabile alla risposta corretta, questo processo richiede una notevole quantità di addestramento aggiuntivo.
Un contratto pubblicato la scorsa settimana dai ricercatori di DeepSeek illustra l’approccio utilizzato per creare R1, che secondo l’azienda avrebbe prestazioni superiori a quelle del modello più avanzato di OpenAI, o1, su determinati benchmark. Le tattiche utilizzate da DeepSeek includono un manuale più automatizzato per imparare a risolvere correttamente i problemi e una strategia per trasferire le competenze da modelli più grandi a quelli più piccoli.
Il nodo dei chip
Un altro dei temi caldi legati a DeepSeek è quello dell’hardware che potrebbe essere stato utilizzato dall’azienda. La questione è particolarmente rilevante perché negli ultimi anni il governo statunitense ha propagandato una serie di controlli sulle esportazioni e di altre restrizioni commerciali per limitare la capacità della Cina di acquisire e produrre chip all’avanguardia, necessari per la costruzione di AI avanzate.
In un contratto di analisi dell’agosto 2024, DeepSeek ha indicato di disporre di un cluster di 10mila chip Nvidia A100, che rientrano nelle restrizioni annunciate dagli Stati Uniti nell’ottobre 2022. In un altro contratto pubblicato nel giugno dello stesso anno, la startup cinese ha aveva dichiarato che un suo modello precedente, DeepSeek-V2, era stato sviluppato utilizzando i chip Nvidia H800, un componente meno capace sviluppato dal chipmaker per rispettare i vincoli americani.
Una fonte che lavora in un’azienda che si occupa di addestramento di modelli AI, che ha chiesto di rimanere anonima per tutelare i propri rapporti professionali, stima che DeepSeek abbia utilizzato circa 50mila chip Nvidia per costruire la propria tecnologia.
Nvidia si è rifiutata di interpretare nel dettaglio la questione, limitandosi a definire DeepSeek un “eccellente progresso per l’intelligenza artificiale” tramite un portavoce, e aggiungendo che l’approccio basato sul ragionamento della startup “richiede un numero significativo di Gpu Nvidia e di reti ad alte prestazioni“.
A prescindere di come siano stati costruiti, i modelli di DeepSeek sembrano dimostrare che sta prendendo piede un’impostazione meno chiusa allo sviluppo dell’AI. A dicembre, Clem Delangue, amministratore delegato di HuggingFace, una piattaforma che ospita modelli di intelligenza artificiale, aveva previsto che un’azienda cinese avrebbe dominato il settore dell’AI grazie alla velocità nell’innovazione dei modelli open source, che la Cina ha ampiamente abbracciato. “È stata più veloce di quanto pensassi“, ha poi dichiarato Delangue.
Questo articolo è apparso originariamente su Wired US.