Un laboratorio da Hangzhou
DeepSeek, fondato nel 2023 a Hangzhou come divisione di ricerca del fondo quantitativo High-Flyer, entra nel panorama AI con un approccio diverso dai laboratori occidentali: modelli ad alte prestazioni, pesi aperti, documentazione tecnica dettagliata e costi di addestramento dichiarati una frazione di quelli dei concorrenti. Nel gennaio 2025 la pubblicazione di DeepSeek-V3 e DeepSeek-R1 attira l’attenzione dell’intera industria.
Mixture-of-Experts: più parametri, meno calcolo
L’architettura alla base di DeepSeek-V3 è Mixture-of-Experts (MoE). Il modello ha un numero totale di parametri elevato — 671 miliardi — ma durante ogni forward pass attiva solo una porzione degli esperti, circa 37 miliardi di parametri. Un meccanismo di routing decide quali esperti attivare per ogni token in input, bilanciando il carico tra gli esperti e specializzandoli su tipologie diverse di contenuto.
Il vantaggio è concreto: le prestazioni di un modello denso di dimensioni comparabili, con un costo computazionale per token significativamente inferiore. DeepSeek dichiara un costo di addestramento di circa 5,5 milioni di dollari per V3 — un ordine di grandezza inferiore alle stime per modelli di frontiera occidentali.
R1: ragionamento chain-of-thought
DeepSeek-R1 è il modello di ragionamento. Addestrato con reinforcement learning (RL) per sviluppare capacità di chain-of-thought — ragionamento esplicito passo dopo passo — R1 compete con o1 di OpenAI su benchmark di matematica, coding e ragionamento logico. Il modello genera una sequenza di pensiero intermedia visibile, dove scompone il problema, valuta approcci alternativi e verifica la coerenza della soluzione prima di produrre la risposta finale.
Il paper tecnico documenta come il ragionamento emerga dall’addestramento RL senza supervisione esplicita sulla catena di pensiero: il modello impara a ragionare perché ragionare produce risposte migliori e quindi reward più alti.
Pesi aperti e impatto
Sia V3 che R1 vengono rilasciati con pesi aperti sotto licenza che consente l’uso commerciale. DeepSeek pubblica anche distillazioni di R1 in modelli più piccoli — da 1.5B a 70B parametri — basati su architetture Qwen e Llama, rendendo le capacità di ragionamento accessibili su hardware modesto.
L’impatto va oltre il modello in sé. DeepSeek dimostra che l’efficienza architetturale e algoritmica può compensare la disponibilità di risorse computazionali, mettendo in discussione l’assunto che la frontiera AI sia accessibile solo a chi dispone di decine di migliaia di GPU di ultima generazione.
Link: deepseek.com
