V4-Pro e V4-Flash: due tagli, una stessa preview
DeepSeek rende disponibile in preview pubblica la famiglia V4, in due varianti entrambe Mixture-of-Experts. DeepSeek-V4-Pro dichiara 1,6 trilioni di parametri totali con 49 miliardi attivi per token; il laboratorio lo posiziona come competitivo con i principali modelli closed-source. DeepSeek-V4-Flash scende a 284 miliardi totali e 13 miliardi attivi, pensato per latenza e costo contenuti, mantenendo capacità di reasoning vicine a Pro. Entrambe le varianti supportano modalità thinking e non-thinking, e sono accessibili via API dal giorno dell’annuncio.
Attention sparsa e contesto da un milione di token
La novità architetturale dichiarata è DeepSeek Sparse Attention (DSA), combinata con una compressione token-wise. È questo il meccanismo che permette di portare il context window a 1 milione di token come default su tutti i servizi ufficiali — chat, API, modelli aperti — senza tier intermedi. La compressione riduce l’overhead della cache KV, mentre il pattern sparso mantiene la fedeltà del recupero su contesti lunghi senza ricorrere ad approssimazioni o a finestre scorrevoli.
API compatibili e migrazione dei modelli precedenti
Gli endpoint V4 mantengono compatibilità con le API OpenAI Chat Completions e con quelle Anthropic, riducendo l’attrito di migrazione per chi ha già integrazioni in produzione: nella maggior parte dei casi è sufficiente cambiare base URL e nome del modello. In contemporanea con l’annuncio, DeepSeek comunica la dismissione di deepseek-chat e deepseek-reasoner, che saranno ritirati il 24 luglio 2026 alle 15:59 UTC: chi li usa in produzione ha tre mesi di finestra per testare V4 e adattare i prompt.
Cosa significa in pratica
V4 non sposta la frontiera con un singolo benchmark, ma rende disponibili in open source un’architettura sparsa pensata per contesti lunghi e una pipeline che, per la prima volta su un modello di queste dimensioni, tratta il milione di token come default invece che come opzione premium. Per chi costruisce sistemi RAG o agenti su grandi corpus, il contesto esteso a parità di prezzo cambia il rapporto fra preprocessing e prompting.
Link: Annuncio DeepSeek V4 Preview · chat.deepseek.com · HuggingFace · deepseek-ai
