Servizi & Sistemi Linux

Domini, hosting, PEC, infrastruttura email, servizi di rete e sistemi Linux. Assistenza e gestione dell’infrastruttura Open Source.

Scopri →

V4-Pro e V4-Flash: due tagli, una stessa preview

DeepSeek rende disponibile in preview pubblica la famiglia V4, in due varianti entrambe Mixture-of-Experts. DeepSeek-V4-Pro dichiara 1,6 trilioni di parametri totali con 49 miliardi attivi per token; il laboratorio lo posiziona come competitivo con i principali modelli closed-source. DeepSeek-V4-Flash scende a 284 miliardi totali e 13 miliardi attivi, pensato per latenza e costo contenuti, mantenendo capacità di reasoning vicine a Pro. Entrambe le varianti supportano modalità thinking e non-thinking, e sono accessibili via API dal giorno dell’annuncio.

Attention sparsa e contesto da un milione di token

La novità architetturale dichiarata è DeepSeek Sparse Attention (DSA), combinata con una compressione token-wise. È questo il meccanismo che permette di portare il context window a 1 milione di token come default su tutti i servizi ufficiali — chat, API, modelli aperti — senza tier intermedi. La compressione riduce l’overhead della cache KV, mentre il pattern sparso mantiene la fedeltà del recupero su contesti lunghi senza ricorrere ad approssimazioni o a finestre scorrevoli.

API compatibili e migrazione dei modelli precedenti

Gli endpoint V4 mantengono compatibilità con le API OpenAI Chat Completions e con quelle Anthropic, riducendo l’attrito di migrazione per chi ha già integrazioni in produzione: nella maggior parte dei casi è sufficiente cambiare base URL e nome del modello. In contemporanea con l’annuncio, DeepSeek comunica la dismissione di deepseek-chat e deepseek-reasoner, che saranno ritirati il 24 luglio 2026 alle 15:59 UTC: chi li usa in produzione ha tre mesi di finestra per testare V4 e adattare i prompt.

Cosa significa in pratica

V4 non sposta la frontiera con un singolo benchmark, ma rende disponibili in open source un’architettura sparsa pensata per contesti lunghi e una pipeline che, per la prima volta su un modello di queste dimensioni, tratta il milione di token come default invece che come opzione premium. Per chi costruisce sistemi RAG o agenti su grandi corpus, il contesto esteso a parità di prezzo cambia il rapporto fra preprocessing e prompting.

Link: Annuncio DeepSeek V4 Preview · chat.deepseek.com · HuggingFace · deepseek-ai

Azienda

Azioni

Links

Prodotti

Soluzioni

Settori

DeepSeek V4 Preview: 1M token di default e attention sparso

Servizi & Sistemi Linux

V4-Pro e V4-Flash: due tagli, una stessa preview

Attention sparsa e contesto da un milione di token

API compatibili e migrazione dei modelli precedenti

Cosa significa in pratica