NVIDIA GB10: l'AI locale arriva sulla scrivania con 128 GB unificati

Il chip NVIDIA GB10 Grace Blackwell Superchip rende disponibili workstation desktop compatte (NVIDIA DGX Spark, Lenovo ThinkStation PGX) con 128 GB di memoria unificata e 1 petaFLOP FP4 per fine-tuning e inferenza di modelli fino a 200 miliardi di parametri, on-premise. noze le adotta come piattaforma per i propri prodotti AI on-premise.

AIR&DnozeCyber SecurityDigital HealthHardware GB10NVIDIAGrace BlackwellLenovo ThinkStation PGXDGX SparkAI WorkstationOn-PremiseEdge AISovranità Digitale

Il chip GB10 Grace Blackwell

NVIDIA GB10 Grace Blackwell Superchip unisce in un singolo package una CPU Arm a 20 core (Grace) e una GPU Blackwell con 128 GB di memoria LPDDR5x unificata coerente, condivisa tra CPU e GPU tramite NVLink C2C. La potenza nominale è di 1 petaFLOP in FP4 e consente inferenza e fine-tuning di modelli fino a 200 miliardi di parametri con quantizzazione appropriata.

È l’hardware progettato da NVIDIA per portare uno stack AI di classe data-center in un form factor desktop: stesso software (CUDA, cuDNN, TensorRT, NeMo, NIM, Triton) dei DGX di ampie dimensioni, ma in un chassis compatto da scrivania, con consumi e ingombri compatibili con un ufficio normale.

Un pattern architetturale anticipato da Apple Silicon

Il modello — CPU ARM + GPU + DRAM unificata e coerente su singolo modulo, senza distinzione gerarchica fra memoria di sistema e VRAM — era stato introdotto nel segmento consumer/workstation da Apple Silicon con il chip M1 (10 novembre 2020) e proseguito con M2, M3, M4 e le varianti Pro/Max/Ultra. Su M2/M3 Max/Ultra, configurazioni fino a 128-192 GB di memoria unificata hanno reso le workstation Apple piattaforme praticabili per inferenza locale di LLM medi (30-70B parametri quantizzati) tramite il backend Metal di llama.cpp e il device mps di PyTorch.

Il GB10 riadotta lo stesso schema architetturale in chiave esplicitamente AI-first: stack CUDA (non Metal), libreria nativa per training e inferenza, densità FP4/FP8 elevate, compatibilità binaria con i DGX di classe superiore. Se M-series è una workstation generalista con unified memory, GB10 è un DGX miniaturizzato — stessa idea di memoria coerente, diversa ottimizzazione del silicio.

Le workstation disponibili oggi

Due macchine basate su GB10 sono già sul mercato:

  • NVIDIA DGX Spark — il “personal AI supercomputer” ufficiale NVIDIA, pre-installato con NVIDIA DGX OS e l’intero stack AI del vendor
  • Lenovo ThinkStation PGX — workstation compatta (form factor da Mac Mini), 128 GB di memoria unificata, fino a 4 TB di storage NVMe, NVIDIA DGX OS

Altri OEM (Asus, Dell, HP, Supermicro) hanno annunciato varianti proprie basate sullo stesso Superchip. Il prezzo di listino si colloca intorno ai 3.000-4.000 euro/dollari, un punto di accesso sostanzialmente più basso delle workstation Blackwell server.

Perché è interessante per l’AI locale

Il GB10 colma una nicchia operativa importante per chi vuole portare AI e LLM in locale:

  • Privacy e sovranità del dato — inferenza locale, zero dati verso cloud. Critico per sanità, finanza, PA, difesa, studi professionali
  • Rapporto costo/beneficio — una macchina da 3-4.000 € regge modelli da 70B a 200B parametri, contro molte migliaia di euro al mese di GPU cloud equivalenti
  • Latenza — LLM locali con latenza sotto i 50 ms senza rete, abilitanti per assistenti conversazionali, RAG e flussi agentic in tempo reale
  • Compattezza — circa 1 litro di volume e ~150 W di consumo: sta sotto una scrivania, non richiede rack né condizionamento
  • Stack NVIDIA completo — CUDA, NeMo, NIM, Triton Inference Server, TensorRT-LLM — gli stessi strumenti dei DGX, scalabili verso workload data-center quando necessario
  • Compatibilità con lo stack open source — Ollama, vLLM, llama.cpp, MLC-LLM, SGLang, text-generation-inference, oltre ai modelli aperti (Llama, Mistral, Qwen, DeepSeek, Gemma, BioMistral, Granite)

Il supporto di noze

noze adotta il GB10 come piattaforma hardware di riferimento per i propri prodotti on-premise che integrano AI, e ne offre supporto diretto ai clienti:

  • Admina — framework di AI governance: su GB10 esegue localmente modelli LLM-as-judge per la valutazione di output e la classificazione di prompt, senza inviare dati all’esterno
  • AIHealth — diagnostica medica assistita: fine-tuning e inferenza on-premise di modelli medici open source (BioMistral, Meditron) con dati che non lasciano l’ospedale
  • CyberScan — security analytics LLM-augmented: triage di alert e correlazione eventi via LLM locale
  • Soluzioni custom R&D — prototipi, pilot e PoC presso clienti che vogliono valutare AI on-premise prima di investire su infrastruttura più ampia

Il supporto noze include configurazione, hardening (DGX OS, policy di rete, backup, telemetria), integrazione con lo stack open source, sizing dei modelli rispetto ai workload del cliente, assistenza operativa continuativa.

Nel contesto italiano

In un mercato che chiede AI conforme all’EU AI Act e dati entro UE, il GB10 rappresenta un’opzione concreta per:

  • PMI innovative che vogliono LLM custom o agenti interni senza dipendere da cloud extra-UE
  • Ospedali e cliniche che processano dati sanitari sensibili (GDPR art. 9)
  • Studi legali, notarili e commerciali con documentazione riservata
  • Enti pubblici e amministrazioni territoriali con requisiti di sovranità
  • Laboratori universitari e centri di R&D con budget contenuti per la prototipazione

Chi parte con una singola workstation GB10 può successivamente scalare a cluster multi-nodo (due DGX Spark collegate via ConnectX-7 reggono modelli da 405B parametri) o integrare con infrastruttura DGX e GB200/GB300 NVL72 quando i workload crescono.


Riferimenti: NVIDIA GB10 Grace Blackwell Superchip (annunciato al CES 2025). NVIDIA DGX Spark. Lenovo ThinkStation PGX (annuncio Lenovo 2025, disponibilità Q4 2025 / Q1 2026). 128 GB LPDDR5x unified memory. 1 petaFLOP FP4. Inferenza/fine-tuning di modelli fino a 200B parametri. NVIDIA DGX OS, CUDA, NeMo, NIM. Compatibilità con stack open source: Ollama, vLLM, llama.cpp, MLC-LLM, SGLang.

Vuoi supporto? Sei sotto attacco? Stato dei servizi
Vuoi supporto? Sei sotto attacco? Stato dei servizi