Riproducibilità come obiettivo di rilascio
Il 1 febbraio 2024 l’Allen Institute for AI (AI2) rilascia OLMo — Open Language Model — nelle varianti 1B e 7B. A differenza della maggior parte degli LLM definiti “open”, che pubblicano soltanto i pesi finali, OLMo è distribuito con tutti gli artefatti necessari a riprodurre integralmente l’addestramento:
- Pesi finali del modello
- Codice di training completo (framework proprio, basato su PyTorch)
- Dataset Dolma (3 trilioni di token)
- Checkpoint intermedi a intervalli regolari durante il training
- Training logs con metriche, loss curves e configurazioni esatte
- Documentazione del processo di data curation
La licenza è Apache 2.0 per pesi e codice; ODC-BY per il dataset.
Il dataset Dolma
Dolma è un dataset di 3 trilioni di token costruito da AI2 aggregando sorgenti pubbliche: Common Crawl, The Stack (codice), Reddit, arXiv, Wikipedia, Project Gutenberg, Semantic Scholar. La pipeline di filtraggio, deduplicazione e rimozione di contenuti sensibili è interamente documentata e il codice di preprocessing è disponibile come pacchetto Python (dolma).
Dolma risolve un problema ricorrente dei modelli “open” precedenti: l’impossibilità di verificare cosa ci sia effettivamente nei dati di training e riprodurre i risultati senza accesso a dataset proprietari.
Architettura e training
OLMo adotta un’architettura transformer standard con RoPE e non-parametric layer norm. Le due taglie:
- OLMo 1B — addestrato su 3T token
- OLMo 7B — addestrato su 2,5T token, con finestra di contesto 2048
I benchmark pubblicati mostrano prestazioni paragonabili a Llama 2 7B sulle principali metriche zero-shot. L’obiettivo dichiarato del progetto non è superare lo stato dell’arte ma fornire alla comunità scientifica una base completa per lo studio dei meccanismi di training degli LLM.
OLMo 2 ed evoluzione
A novembre 2024 AI2 rilascia OLMo 2 con varianti 7B e 13B. Il nuovo training mix migliora qualità e stabilità, e il modello recupera terreno sui benchmark contro Llama 3.1 8B rimanendo completamente aperto in pesi, codice e dati.
OLMo rappresenta uno standard di trasparenza che poche altre famiglie di modelli (tra cui BLOOM, Pythia di EleutherAI, Amber) raggiungono. È uno strumento di riferimento per la ricerca accademica sugli LLM.
Link: allenai.org/olmo
