Il rilascio di Nemotron-4 340B
Il 14 giugno 2024, NVIDIA rilascia Nemotron-4 340B, una famiglia di modelli linguistici da 340 miliardi di parametri pubblicata in tre varianti coordinate: Base (modello pre-addestrato), Instruct (modello allineato per seguire istruzioni) e Reward (modello classificatore utilizzato nei processi di RLHF). Il pre-addestramento è condotto su circa 9 trilioni di token, con un mix di dati che bilancia codice, testo web e contenuti multilingue.
La scelta di rilasciare contestualmente il reward model è inusuale: rende esplicito lo strumento con cui NVIDIA valuta le risposte durante il fine-tuning, e consente a terze parti di riutilizzarlo per pipeline di preference modeling senza dover addestrare un classificatore proprio.
NVIDIA Open Model License
Nemotron è distribuito sotto NVIDIA Open Model License, una licenza che consente l’uso commerciale dei pesi e delle uscite del modello, compresa — esplicitamente — la generazione di dati sintetici da utilizzare nel training di altri modelli. Sono presenti alcuni caveat su condotta d’uso e attribuzione, ma senza le limitazioni non commerciali o di soglia utenti tipiche di altre licenze “open weights”.
Il posizionamento commerciale dichiarato è coerente con questa scelta: NVIDIA propone Nemotron come generatore di dati sintetici per il training di modelli downstream, più che come assistente conversazionale end-user. Le prestazioni del reward model sui benchmark pubblici al momento del rilascio confermano la validità della pipeline.
Evoluzione della famiglia
Nell’ottobre 2024, NVIDIA pubblica Nemotron-70B, variante più compatta ottenuta tramite fine-tuning mirato, che ottiene risultati di rilievo su benchmark di allineamento e seguire istruzioni. La famiglia si evolve mantenendo la stessa licenza e la stessa filosofia: fornire modelli di qualità insieme ai componenti infrastrutturali (reward, dataset sintetici) necessari per addestrare ulteriori modelli su ecosistemi NVIDIA. L’obiettivo di NVIDIA non è competere frontalmente con i fornitori di API proprietarie, ma consolidare la propria posizione come piattaforma per l’intera pipeline di training.
