OLMo: il modello 'truly open' di Allen Institute for AI

AI2 rilascia OLMo il 1 febbraio 2024: pesi, codice di training, dataset Dolma (3T token), checkpoint intermedi e training log sotto licenza Apache 2.0. Riproducibilità completa.

Open SourceAI Open SourceOLMoAllenAILLMAIReproducibility

Riproducibilità come obiettivo di rilascio

Il 1 febbraio 2024 l’Allen Institute for AI (AI2) rilascia OLMo — Open Language Model — nelle varianti 1B e 7B. A differenza della maggior parte degli LLM definiti “open”, che pubblicano soltanto i pesi finali, OLMo è distribuito con tutti gli artefatti necessari a riprodurre integralmente l’addestramento:

  • Pesi finali del modello
  • Codice di training completo (framework proprio, basato su PyTorch)
  • Dataset Dolma (3 trilioni di token)
  • Checkpoint intermedi a intervalli regolari durante il training
  • Training logs con metriche, loss curves e configurazioni esatte
  • Documentazione del processo di data curation

La licenza è Apache 2.0 per pesi e codice; ODC-BY per il dataset.

Il dataset Dolma

Dolma è un dataset di 3 trilioni di token costruito da AI2 aggregando sorgenti pubbliche: Common Crawl, The Stack (codice), Reddit, arXiv, Wikipedia, Project Gutenberg, Semantic Scholar. La pipeline di filtraggio, deduplicazione e rimozione di contenuti sensibili è interamente documentata e il codice di preprocessing è disponibile come pacchetto Python (dolma).

Dolma risolve un problema ricorrente dei modelli “open” precedenti: l’impossibilità di verificare cosa ci sia effettivamente nei dati di training e riprodurre i risultati senza accesso a dataset proprietari.

Architettura e training

OLMo adotta un’architettura transformer standard con RoPE e non-parametric layer norm. Le due taglie:

  • OLMo 1B — addestrato su 3T token
  • OLMo 7B — addestrato su 2,5T token, con finestra di contesto 2048

I benchmark pubblicati mostrano prestazioni paragonabili a Llama 2 7B sulle principali metriche zero-shot. L’obiettivo dichiarato del progetto non è superare lo stato dell’arte ma fornire alla comunità scientifica una base completa per lo studio dei meccanismi di training degli LLM.

OLMo 2 ed evoluzione

A novembre 2024 AI2 rilascia OLMo 2 con varianti 7B e 13B. Il nuovo training mix migliora qualità e stabilità, e il modello recupera terreno sui benchmark contro Llama 3.1 8B rimanendo completamente aperto in pesi, codice e dati.

OLMo rappresenta uno standard di trasparenza che poche altre famiglie di modelli (tra cui BLOOM, Pythia di EleutherAI, Amber) raggiungono. È uno strumento di riferimento per la ricerca accademica sugli LLM.

Link: allenai.org/olmo

Vuoi supporto? Sei sotto attacco? Stato dei servizi
Vuoi supporto? Sei sotto attacco? Stato dei servizi