GPT-NeoX e GPT-J: gli LLM aperti di EleutherAI

EleutherAI rilascia GPT-J-6B il 9 giugno 2021 e GPT-NeoX-20B il 9 febbraio 2022, entrambi Apache 2.0, addestrati su The Pile. Prima community decentralizzata per LLM.

Open SourceAI Open SourceGPT-NeoXGPT-JEleutherAILLMAI

La prima community decentralizzata per gli LLM

EleutherAI nasce nel 2020 come collettivo informale di ricercatori riuniti intorno all’obiettivo dichiarato di replicare in forma aperta i modelli linguistici di grandi dimensioni resi famosi da GPT-3. Il lavoro di EleutherAI è stato il primo tentativo strutturato, al di fuori dei grandi laboratori industriali, di addestrare LLM competitivi e rilasciarli pubblicamente con pesi, codice e dati.

GPT-J-6B

Il 9 giugno 2021 viene rilasciato GPT-J-6B, un modello da 6 miliardi di parametri addestrato con Mesh Transformer JAX, la libreria distribuita sviluppata per l’occasione da Ben Wang e Aran Komatsuzaki. L’addestramento è avvenuto su The Pile, un dataset da 825 GB curato da EleutherAI stessa come alternativa aperta ai corpora proprietari usati da OpenAI.

GPT-J è rilasciato sotto licenza Apache 2.0, senza restrizioni d’uso. Al momento del rilascio è il più grande modello linguistico autoregressivo disponibile pubblicamente con una licenza permissiva, e per un periodo è il principale riferimento per chi vuole utilizzare un modello simile a GPT-3 senza accedere alle API di OpenAI.

GPT-NeoX-20B

Il 9 febbraio 2022 EleutherAI rilascia GPT-NeoX-20B, un modello da 20 miliardi di parametri, sempre sotto licenza Apache 2.0 e addestrato su The Pile. Il training è stato condotto con GPT-NeoX, la libreria di EleutherAI basata su Megatron-LM e DeepSpeed, ottimizzata per training multi-GPU su larga scala.

GPT-NeoX-20B è, al momento del rilascio, il modello linguistico denso open weight più grande al mondo con licenza permissiva. La pubblicazione include pesi, codice di training, configurazioni e descrizione dettagliata dell’infrastruttura hardware.

Un’eredità infrastrutturale

Il contributo di EleutherAI va oltre i singoli modelli. The Pile, la libreria GPT-NeoX e l’approccio metodologico alla pubblicazione completa hanno definito lo standard de facto per i rilasci successivi di LLM aperti, inclusi Pythia (2023) e numerosi modelli derivati dalla comunità.

Link: eleuther.ai

Vuoi supporto? Sei sotto attacco? Stato dei servizi
Vuoi supporto? Sei sotto attacco? Stato dei servizi