NVIDIA DGX: la piattaforma integrata per training e inferenza AI

Evoluzione delle piattaforme DGX di NVIDIA: da DGX-1 (2016, P100) a DGX-2 (2018, Volta + NVSwitch), DGX A100 (2020), DGX H100 (2022), DGX GH200 (2023), GB200 NVL72 (GTC 2024) e GB300 NVL72 / DGX Station annunciati alla GTC del 18 marzo 2025. DGX SuperPOD, DGX Cloud, NVLink, NVSwitch, InfiniBand.

R&DAIHardware NVIDIADGXSuperPODDGX CloudNVLinkNVSwitchH100B200GB200GB300Blackwell UltraInfiniBandAI

DGX-1 (2016): server AI turnkey

Il programma DGX nasce come risposta di NVIDIA a una domanda specifica delle aziende e dei laboratori di ricerca: un sistema chiavi in mano per training deep learning, pre-integrato a livello hardware, software e supporto. Il primo sistema, DGX-1, è annunciato ad aprile 2016 (GTC, Jensen Huang):

  • 8 GPU Tesla P100 (Pascal, 16 GB HBM2) interconnesse in topologia hybrid cube-mesh via NVLink 1.0
  • 2 CPU Intel Xeon, 512 GB RAM, 8 TB SSD NVMe
  • Stack software pre-installato: driver CUDA, cuDNN, framework DL (Caffe, TensorFlow, Torch, Theano), NVIDIA GPU Cloud

Il DGX-1 V100 (2017) aggiorna le GPU a V100 (Volta, Tensor Core di prima generazione).

DGX-2 e NVSwitch (2018)

Il DGX-2 (marzo 2018) introduce NVSwitch, chip di crossbar che permette a 16 GPU V100 di comunicare all-to-all con banda 300 GB/s bidirezionale per GPU, eliminando il collo di bottiglia della topologia a mesh del DGX-1. La memoria aggregata passa a 512 GB HBM2. Il DGX-2 è il primo sistema con memoria GPU unificata a 512 GB visibile a un singolo training job.

DGX A100 e DGX H100

  • DGX A100 (2020) — 8× A100 (40 GB, poi 80 GB), 6× NVSwitch, 8× ConnectX-6 VPI (HDR InfiniBand 200 Gb/s), 2× AMD EPYC Rome. Introduce MIG per partizionare ciascuna A100 in 7 istanze isolate.
  • DGX H100 (2022) — 8× H100 (80 GB HBM3), NVSwitch 3, 4× ConnectX-7 (NDR 400 Gb/s), 2× Intel Sapphire Rapids. Dichiarati ~32 petaFLOPS in FP8 per sistema.

A livello software, ogni generazione DGX è supportata dal DGX OS (Ubuntu Server con patch e driver NVIDIA pre-qualificati) e da NGC (container registry NVIDIA per PyTorch, TensorFlow, Triton, RAPIDS).

DGX GH200 (2023)

Alla GTC del 28 maggio 2023 (Computex), NVIDIA annuncia DGX GH200, configurazione a scala rack-cluster:

  • 256 GH200 Grace Hopper Superchip (CPU Grace ARM + GPU H100 su singolo modulo, collegati via NVLink-C2C a 900 GB/s)
  • NVLink Switch System con topologia fat-tree a due livelli
  • 144 TB di memoria unificata accessibile come spazio singolo (HBM3 + LPDDR5X)
  • Banda di interconnessione ~128 TB/s

L’obiettivo dichiarato è permettere training di modelli memory-bound (grafi, recommender system, LLM con tabelle di embedding molto grandi) senza sharding manuale della memoria.

DGX GB200 NVL72 (GTC 2024)

Alla GTC del 18 marzo 2024, con Blackwell, NVIDIA presenta GB200 NVL72 come unità rack standard:

  • 36 Grace CPU + 72 B200 per rack (18 compute tray × 2 GB200 Superchip)
  • NVLink 5 e NVLink Switch di 4ª generazione, banda NVLink 1,8 TB/s per GPU
  • Raffreddamento liquid-cooled su tutto il rack
  • ~1,4 exaFLOPS in FP4, ~720 petaFLOPS in FP8

Il NVL72 è progettato per training e serving di modelli a trilioni di parametri, con un dominio NVLink esteso a 72 GPU (contro 8 nel DGX H100).

GB300 NVL72 e DGX Station (GTC 2025)

Alla GTC del 18 marzo 2025, NVIDIA presenta la generazione Blackwell Ultra e le piattaforme DGX associate:

  • GB300 Superchip: refresh del GB200 con GPU B300 (Blackwell Ultra), HBM3e fino a 288 GB per GPU e potenza FP4 dichiarata superiore rispetto a B200
  • GB300 NVL72: stesso fattore di forma rack del GB200 NVL72, 72 GPU B300 + 36 Grace, NVLink 5
  • DGX Station (2025): workstation desktop basata su singolo GB300 Superchip, fino a 784 GB di memoria coerente (HBM3e + LPDDR5X), raffreddamento liquido in chassis tower
  • DGX Spark (già annunciato come Project DIGITS): mini-workstation con GB10 (Blackwell low-end + Grace ARM), 128 GB memoria unificata, target individual developer / small-team. Il pattern architetturale — CPU ARM + GPU + DRAM unificata su singolo modulo — era stato introdotto nel segmento consumer/workstation da Apple Silicon (M1, novembre 2020); NVIDIA lo riadotta qui in configurazione orientata al carico AI

Parallelamente NVIDIA pubblica la roadmap successiva — Vera Rubin come nome di architettura post-Blackwell prevista in rilascio nei cicli seguenti.

DGX SuperPOD

DGX SuperPOD è l’architettura di riferimento per cluster multi-sistema: unità DGX collegate da InfiniBand (prima HDR, poi NDR/XDR) con topologia fat-tree o dragonfly+, storage ad alte prestazioni (NVIDIA GPUDirect Storage, WekaIO, DDN, VAST Data), orchestrazione Slurm o Base Command Manager. Taglie di riferimento: da 32 a 1024+ DGX. Installazioni note: Meta AI RSC, Eos (NVIDIA interno), cluster EuroHPC.

DGX Cloud

DGX Cloud (annunciato GTC marzo 2023) è l’offerta managed: capacità DGX ospitata su hyperscaler (Oracle OCI, Microsoft Azure, Google Cloud, AWS) ed esposta come servizio NVIDIA con Base Command e AI Enterprise inclusi. Il cliente affitta capacità a mese, senza possedere l’hardware. Rilevante per carichi di training spiky o proof-of-concept su scala.

Posizionamento e costi

Un DGX H100 ha prezzo di listino storico intorno ai ~400-500 k€. Un NVL72 è una unità da milioni di euro, pensata per hyperscaler, laboratori nazionali e aziende che costruiscono modelli di frontiera. Per PMI e centri di ricerca la via tipica è DGX Cloud oppure cluster a singole schede H100 PCIe / HGX H100 (8 GPU baseboard OEM) montate in server Supermicro/Dell/Lenovo — stesso silicio, prezzo inferiore, ma dominio NVLink limitato a 8 GPU.

Contesto noze

In R&D, noze non opera DGX in-house ma progetta AIHealth per girare su stack NVIDIA compatibili: H100 / H200 su server OEM in colocation, oppure GPU di fascia RTX professionale per inferenza e fine-tuning di modelli medi (≤ 70 B parametri quantizzati). La scelta tra DGX Cloud, HGX on-premise e schede workstation-class dipende dal profilo del carico (training vs inferenza) e dai vincoli di residenza del dato sanitario.


Riferimenti: DGX-1 annunciato al keynote GTC 5 aprile 2016 (Jensen Huang). DGX-2 annunciato GTC 27 marzo 2018, prima piattaforma con NVSwitch. DGX A100 annunciato 14 maggio 2020 (GTC Digital). DGX H100 annunciato 22 marzo 2022 (GTC Spring). DGX GH200 annunciato Computex 28 maggio 2023. DGX Cloud annunciato GTC 21 marzo 2023. GB200 NVL72 presentato alla GTC del 18 marzo 2024. GB300 NVL72, DGX Station e DGX Spark annunciati alla GTC del 18 marzo 2025 (Jensen Huang keynote). Fonti: NVIDIA press releases, pagine prodotto nvidia.com/dgx, whitepapers NVLink e NVSwitch.

Vuoi supporto? Sei sotto attacco? Stato dei servizi
Vuoi supporto? Sei sotto attacco? Stato dei servizi