La prima community decentralizzata per gli LLM
EleutherAI nasce nel 2020 come collettivo informale di ricercatori riuniti intorno all’obiettivo dichiarato di replicare in forma aperta i modelli linguistici di grandi dimensioni resi famosi da GPT-3. Il lavoro di EleutherAI è stato il primo tentativo strutturato, al di fuori dei grandi laboratori industriali, di addestrare LLM competitivi e rilasciarli pubblicamente con pesi, codice e dati.
GPT-J-6B
Il 9 giugno 2021 viene rilasciato GPT-J-6B, un modello da 6 miliardi di parametri addestrato con Mesh Transformer JAX, la libreria distribuita sviluppata per l’occasione da Ben Wang e Aran Komatsuzaki. L’addestramento è avvenuto su The Pile, un dataset da 825 GB curato da EleutherAI stessa come alternativa aperta ai corpora proprietari usati da OpenAI.
GPT-J è rilasciato sotto licenza Apache 2.0, senza restrizioni d’uso. Al momento del rilascio è il più grande modello linguistico autoregressivo disponibile pubblicamente con una licenza permissiva, e per un periodo è il principale riferimento per chi vuole utilizzare un modello simile a GPT-3 senza accedere alle API di OpenAI.
GPT-NeoX-20B
Il 9 febbraio 2022 EleutherAI rilascia GPT-NeoX-20B, un modello da 20 miliardi di parametri, sempre sotto licenza Apache 2.0 e addestrato su The Pile. Il training è stato condotto con GPT-NeoX, la libreria di EleutherAI basata su Megatron-LM e DeepSpeed, ottimizzata per training multi-GPU su larga scala.
GPT-NeoX-20B è, al momento del rilascio, il modello linguistico denso open weight più grande al mondo con licenza permissiva. La pubblicazione include pesi, codice di training, configurazioni e descrizione dettagliata dell’infrastruttura hardware.
Un’eredità infrastrutturale
Il contributo di EleutherAI va oltre i singoli modelli. The Pile, la libreria GPT-NeoX e l’approccio metodologico alla pubblicazione completa hanno definito lo standard de facto per i rilasci successivi di LLM aperti, inclusi Pythia (2023) e numerosi modelli derivati dalla comunità.
Link: eleuther.ai
