AIHealth
Piattaforma clinica on-premise con LLM locali, RAG su dati FHIR/DICOM, supporto alla diagnosi, follow-up remoto. Architettura progettata per il percorso MDR.
Scopri AIHealth →
Intelligenza Artificiale
Consulenza EU AI Act: classificazione dei sistemi, policy, governance AI, formazione.
Scopri →Origini: da RIVA a GeForce 256
NVIDIA Corporation è stata costituita il 5 aprile 1993 da Jensen Huang, Chris Malachowsky e Curtis Priem. Il primo prodotto di volume commerciale è RIVA 128 (1997), seguito dalla famiglia TNT. Il 31 agosto 1999 viene annunciata GeForce 256, presentata come first GPU per l’integrazione hardware di transform & lighting e setup triangoli su singolo chip. Con GeForce 3 (2001) arrivano i primi shader programmabili (vertex e pixel shader) — condizione tecnica per il successivo uso della GPU in calcolo generico.
Tesla (2006): GPU unificata e CUDA
L’architettura Tesla (GPU G80, GeForce 8800 GTX, novembre 2006) unifica vertex e pixel shader in streaming processor generici, organizzati in Streaming Multiprocessor (SM). In parallelo, NVIDIA rilascia CUDA 1.0 (giugno 2007), modello di programmazione C-like per GPU. Tesla segna il passaggio della GPU da acceleratore grafico a piattaforma programmabile per HPC, simulazione numerica e, progressivamente, machine learning.
Fermi, Kepler, Maxwell, Pascal
- Fermi (2010, GF100) — 512 CUDA core, cache L1/L2 unificata, ECC memory, supporto C++ in CUDA
- Kepler (2012, GK110) — fino a 2880 core, dynamic parallelism, Hyper-Q
- Maxwell (2014) — rivista per efficienza per watt
- Pascal (2016, GP100) — HBM2, NVLink 1.0 (160 GB/s), FP16 nativo. Tesla P100 è la prima GPU data-center adottata largamente per deep learning
Volta, Turing, Ampere
- Volta (2017, GV100) — introduce i Tensor Core, unità dedicate a operazioni matriciali FP16/FP32 con mixed precision. NVLink 2.0. Tesla V100 è la base dei primi DGX-1 V100 e dei cluster di training pre-Transformer.
- Turing (2018) — aggiunge RT Core per ray-tracing hardware e i primi Tensor Core su linea consumer (RTX 20).
- Ampere (2020, GA100) — A100 con HBM2e, Tensor Core 3ª gen, supporto BF16 e TF32, sparsity 2:4 per inferenza, MIG (Multi-Instance GPU) per partizionare una A100 in fino a sette istanze isolate. GeForce RTX 30 in ambito consumer.
Hopper (2022) e l’era dei Large Language Model
L’architettura Hopper (GH100, annunciata alla GTC del 22 marzo 2022) è progettata per il training di modelli a larga scala:
- H100 con 80 GB HBM3, ~3 TB/s di bandwidth
- Transformer Engine: Tensor Core di 4ª generazione con supporto FP8 e gestione dinamica della precisione
- NVLink 4.0 (900 GB/s per GPU), NVSwitch 3 per interconnessione all-to-all intra-nodo
- Confidential Computing a livello hardware
H100 è stata la GPU di riferimento per il training di GPT-4, Llama 2/3, Gemini e Claude nei cicli 2023–2024.
Blackwell (GTC 2024)
Alla GTC del 18 marzo 2024, nel keynote di Jensen Huang, NVIDIA presenta Blackwell:
- B100 / B200 — due die GPU connessi via NV-HBI (10 TB/s inter-die), esposti al software come singola GPU logica; fino a 192 GB HBM3e, 8 TB/s
- Transformer Engine 2ª gen con FP4
- GB200 Superchip: CPU Grace (ARM Neoverse) + due B200 su singola board, collegati via NVLink-C2C
- GB200 NVL72: sistema rack-scale con 36 Grace e 72 B200 connessi da NVLink Switch system, dichiarato ~1,4 exaFLOPS FP4
Il posizionamento è esplicito: training e inferenza di modelli da trilioni di parametri.
Ada Lovelace e linea consumer
Parallela al filone data-center, la linea consumer ha proseguito con Ada Lovelace (2022, RTX 40, 4ª gen Tensor Core, 3ª gen RT Core, DLSS 3 con frame generation). Ada e Hopper condividono il processo TSMC 4N. L’uso di Ada in laboratorio AI è comune per fine-tuning e inferenza di modelli di media scala (fino a ~70 B parametri quantizzati).
Contesto noze
In R&D e digital health, noze utilizza GPU NVIDIA per fine-tuning e inferenza di LLM on-premise: RTX professional in ambito sviluppo, H100 in configurazioni cluster per carichi di training. La compatibilità CUDA garantisce portabilità degli stack (PyTorch, llama.cpp, vLLM, TensorRT-LLM) dal laptop alla GPU server, riducendo divergenze tra ambiente di sviluppo e produzione — requisito di base per pipeline AIHealth e percorsi MDR/EU AI Act.
Riferimenti: NVIDIA Corporation, incorporation 5 aprile 1993 (fondatori: Jensen Huang, Chris Malachowsky, Curtis Priem). GeForce 256: annuncio 31 agosto 1999. Architettura Tesla (G80) presentata con GeForce 8800 GTX, 8 novembre 2006. CUDA 1.0 rilasciato giugno 2007. Hopper GH100 annunciata alla GTC del 22 marzo 2022. Blackwell annunciata alla GTC del 18 marzo 2024 (keynote Jensen Huang). Fonti primarie: whitepapers di architettura NVIDIA, keynote GTC, pagine developer.nvidia.com.