Intelligenza Artificiale

Soluzioni AI on-premise, LLM locali, AI governance, compliance EU AI Act. Dalla prototipazione al deploy produttivo.

Admina

Framework open source per AI governance. Intercetta, osserva e protegge le chiamate ai modelli AI di app e agenti, on-premise o in cloud.

Scopri →

Il chip GB10 Grace Blackwell

NVIDIA GB10 Grace Blackwell Superchip unisce in un singolo package una CPU Arm a 20 core (Grace) e una GPU Blackwell con 128 GB di memoria LPDDR5x unificata coerente, condivisa tra CPU e GPU tramite NVLink C2C. La potenza nominale è di 1 petaFLOP in FP4 e consente inferenza e fine-tuning di modelli fino a 200 miliardi di parametri con quantizzazione appropriata.

È l’hardware progettato da NVIDIA per portare uno stack AI di classe data-center in un form factor desktop: stesso software (CUDA, cuDNN, TensorRT, NeMo, NIM, Triton) dei DGX di ampie dimensioni, ma in un chassis compatto da scrivania, con consumi e ingombri compatibili con un ufficio normale.

Un pattern architetturale anticipato da Apple Silicon

Il modello — CPU ARM + GPU + DRAM unificata e coerente su singolo modulo, senza distinzione gerarchica fra memoria di sistema e VRAM — era stato introdotto nel segmento consumer/workstation da Apple Silicon con il chip M1 (10 novembre 2020) e proseguito con M2, M3, M4 e le varianti Pro/Max/Ultra. Su M2/M3 Max/Ultra, configurazioni fino a 128-192 GB di memoria unificata hanno reso le workstation Apple piattaforme praticabili per inferenza locale di LLM medi (30-70B parametri quantizzati) tramite il backend Metal di llama.cpp e il device mps di PyTorch.

Il GB10 riadotta lo stesso schema architetturale in chiave esplicitamente AI-first: stack CUDA (non Metal), libreria nativa per training e inferenza, densità FP4/FP8 elevate, compatibilità binaria con i DGX di classe superiore. Se M-series è una workstation generalista con unified memory, GB10 è un DGX miniaturizzato — stessa idea di memoria coerente, diversa ottimizzazione del silicio.

Le workstation disponibili oggi

Due macchine basate su GB10 sono già sul mercato:

NVIDIA DGX Spark — il “personal AI supercomputer” ufficiale NVIDIA, pre-installato con NVIDIA DGX OS e l’intero stack AI del vendor
Lenovo ThinkStation PGX — workstation compatta (form factor da Mac Mini), 128 GB di memoria unificata, fino a 4 TB di storage NVMe, NVIDIA DGX OS

Altri OEM (Asus, Dell, HP, Supermicro) hanno annunciato varianti proprie basate sullo stesso Superchip. Il prezzo di listino si colloca intorno ai 3.000-4.000 euro/dollari, un punto di accesso sostanzialmente più basso delle workstation Blackwell server.

Perché è interessante per l’AI locale

Il GB10 colma una nicchia operativa importante per chi vuole portare AI e LLM in locale:

Privacy e sovranità del dato — inferenza locale, zero dati verso cloud. Critico per sanità, finanza, PA, difesa, studi professionali
Rapporto costo/beneficio — una macchina da 3-4.000 € regge modelli da 70B a 200B parametri, contro molte migliaia di euro al mese di GPU cloud equivalenti
Latenza — LLM locali con latenza sotto i 50 ms senza rete, abilitanti per assistenti conversazionali, RAG e flussi agentic in tempo reale
Compattezza — circa 1 litro di volume e ~150 W di consumo: sta sotto una scrivania, non richiede rack né condizionamento
Stack NVIDIA completo — CUDA, NeMo, NIM, Triton Inference Server, TensorRT-LLM — gli stessi strumenti dei DGX, scalabili verso workload data-center quando necessario
Compatibilità con lo stack open source — Ollama, vLLM, llama.cpp, MLC-LLM, SGLang, text-generation-inference, oltre ai modelli aperti (Llama, Mistral, Qwen, DeepSeek, Gemma, BioMistral, Granite)

Il supporto di noze

noze adotta il GB10 come piattaforma hardware di riferimento per i propri prodotti on-premise che integrano AI, e ne offre supporto diretto ai clienti:

Admina — framework di AI governance: su GB10 esegue localmente modelli LLM-as-judge per la valutazione di output e la classificazione di prompt, senza inviare dati all’esterno
AIHealth — diagnostica medica assistita: fine-tuning e inferenza on-premise di modelli medici open source (BioMistral, Meditron) con dati che non lasciano l’ospedale
CyberScan — security analytics LLM-augmented: triage di alert e correlazione eventi via LLM locale
Soluzioni custom R&D — prototipi, pilot e PoC presso clienti che vogliono valutare AI on-premise prima di investire su infrastruttura più ampia

Il supporto noze include configurazione, hardening (DGX OS, policy di rete, backup, telemetria), integrazione con lo stack open source, sizing dei modelli rispetto ai workload del cliente, assistenza operativa continuativa.

Nel contesto italiano

In un mercato che chiede AI conforme all’EU AI Act e dati entro UE, il GB10 rappresenta un’opzione concreta per:

PMI innovative che vogliono LLM custom o agenti interni senza dipendere da cloud extra-UE
Ospedali e cliniche che processano dati sanitari sensibili (GDPR art. 9)
Studi legali, notarili e commerciali con documentazione riservata
Enti pubblici e amministrazioni territoriali con requisiti di sovranità
Laboratori universitari e centri di R&D con budget contenuti per la prototipazione

Chi parte con una singola workstation GB10 può successivamente scalare a cluster multi-nodo (due DGX Spark collegate via ConnectX-7 reggono modelli da 405B parametri) o integrare con infrastruttura DGX e GB200/GB300 NVL72 quando i workload crescono.

Riferimenti: NVIDIA GB10 Grace Blackwell Superchip (annunciato al CES 2025). NVIDIA DGX Spark. Lenovo ThinkStation PGX (annuncio Lenovo 2025, disponibilità Q4 2025 / Q1 2026). 128 GB LPDDR5x unified memory. 1 petaFLOP FP4. Inferenza/fine-tuning di modelli fino a 200B parametri. NVIDIA DGX OS, CUDA, NeMo, NIM. Compatibilità con stack open source: Ollama, vLLM, llama.cpp, MLC-LLM, SGLang.

Azienda

Azioni

Links

Prodotti

Soluzioni

Settori

NVIDIA GB10: l'AI locale arriva sulla scrivania con 128 GB unificati