Il rilascio di Grok-1
Il 17 marzo 2024, xAI — la società di intelligenza artificiale fondata da Elon Musk — rilascia i pesi di Grok-1 sotto licenza Apache 2.0. Il modello, annunciato nei mesi precedenti come componente dell’assistente integrato nella piattaforma X, diventa così uno dei più grandi modelli linguistici mai pubblicati con licenza completamente aperta.
Grok-1 è distribuito esclusivamente come modello base pre-addestrato, senza fine-tuning istruttivo né allineamento RLHF. Questa scelta lo rende un punto di partenza per ricercatori e sviluppatori che intendono costruire varianti specializzate, ma non un assistente conversazionale pronto all’uso.
Architettura Mixture-of-Experts
Grok-1 adotta un’architettura Mixture-of-Experts (MoE) con 314 miliardi di parametri totali distribuiti su 8 esperti, di cui 2 attivi per ogni token processato. Il numero effettivo di parametri attivi per inferenza è di circa 86 miliardi, valore che determina il costo computazionale reale ma non la dimensione in memoria.
La finestra di contesto è di 8.192 token, in linea con i modelli di riferimento del 2023 ma inferiore rispetto alle generazioni successive. Il codice di riferimento è scritto in JAX e pubblicato sul repository GitHub di xAI. Il peso complessivo del checkpoint rilasciato è di circa 318 GB, un requisito che esclude l’inferenza su hardware consumer senza quantizzazione aggressiva.
Licenza e contesto
La scelta di Apache 2.0 colloca Grok-1 tra i modelli più permissivi in termini di riutilizzo commerciale: nessuna clausola d’uso restrittiva, nessuna soglia di utenti oltre la quale richiedere una licenza separata. Questa apertura si limita tuttavia alla prima versione: Grok-2 e Grok-3, sviluppati da xAI negli anni successivi, sono rimasti proprietari e accessibili solo tramite API o all’interno dei prodotti X.
Il rilascio di Grok-1 ha un valore principalmente di ricerca: le dimensioni lo rendono difficile da eseguire in ambienti privi di cluster GPU multi-nodo, ma la disponibilità dei pesi consente studi approfonditi su routing MoE, scaling e comportamento di modelli di grande scala al di fuori dei laboratori industriali chiusi.
Link: x.ai/blog/grok-os
