Per Liang gli studenti possono rivelarsi più adatti alla inchiesta ad alto incidente e a basso profitto. “Nella maggior parte dai casi, le persone, quando sono giovani, possono votarsi pienamente a una missione senza considerazioni utilitaristiche“, ha osservato. Il suo messaggio ai potenziali assunti è che DeepSeek è stata creata per “risolvere le questioni più difficili al mondo“.
Secondo gli esperti, il fatto che questi giovani ricercatori siano stati formati quasi solamente in Cina aumenta la loro determinazione. “Questa giovane generazione incarna anche un senso di patriottismo, in particolare quando si trova ad trattare le restrizioni e i colli di bottiglia imposti dagli Stati Uniti alle tecnologie hardware e software – commenta Zhang –. La loro determinazione a superare queste barriere riflette non solo la loro ambizione personale, ma anche un impegno più ampio per far progredire la Cina come leader generale dell’innovazione“.
Innovazione nata da una crisi
A partire dall’ottobre del 2022, il governo degli Stati Uniti ha iniziato a mettere a punto controlli sulle esportazioni che limitano fortemente l’accesso delle aziende cinesi di intelligenza artificiale ai chip all’avanguardia, come l’H100 di Nvidia. La mossa ha rappresentato un problema per DeepSeek, che pur avendo una scorta di 10mila H100 aveva bisogno di un numero maggiore di chip per competere con aziende come OpenAI e Meta. “Il problema che stiamo affrontando non è mai stato il finanziamento, ma il controllo sulle esportazioni di chip avanzati“, aveva dichiarato Liang a 36Kr in una seconda intervista del 2024.
DeepSeek ha dovuto quindi trovare metodi più efficienti per addestrare i suoi modelli. “Hanno ottimizzato l’architettura dei loro modelli utilizzando una serie di trucchi ingegneristici: schemi di comunicazione personalizzati tra i chip, una riduzione delle dimensioni dei campagna per risparmiare memoria e un uso innovativo dell’approccio ‘mix-of-models’ – afferma Wendy Chang, ingegnere software che oggi lavora come analista politica per il Mercator institute for china studies –. Molti di questi approcci non sono idee nuove, ma combinarli con successo per produrre un modello all’avanguardia è un’impresa notevole“.
DeepSeek ha fatto progressi significativi anche sul fronte della Multi-head latent attention (Mla) e della Mixture of experts, due design tecnici che rendono i modelli DeepSeek più efficienti dal punto di vista dei costi, facendo in modo cha abbiano bisogno di meno risorse di calcolo per l’addestramento. Secondo l’istituto di inchiesta Epoch AI, l’ultimo modello di DeepSeek è talmente efficiente da necessitare di un decimo della potenza di calcolo rispetto a Llama 3.1 di Meta.