Servizi & Sistemi Linux

Domini, hosting, PEC, infrastruttura email, servizi di rete e sistemi Linux. Assistenza e gestione dell’infrastruttura Open Source.

Scopri →

Riproducibilità come obiettivo di rilascio

Il 1 febbraio 2024 l’Allen Institute for AI (AI2) rilascia OLMo — Open Language Model — nelle varianti 1B e 7B. A differenza della maggior parte degli LLM definiti “open”, che pubblicano soltanto i pesi finali, OLMo è distribuito con tutti gli artefatti necessari a riprodurre integralmente l’addestramento:

Pesi finali del modello
Codice di training completo (framework proprio, basato su PyTorch)
Dataset Dolma (3 trilioni di token)
Checkpoint intermedi a intervalli regolari durante il training
Training logs con metriche, loss curves e configurazioni esatte
Documentazione del processo di data curation

La licenza è Apache 2.0 per pesi e codice; ODC-BY per il dataset.

Il dataset Dolma

Dolma è un dataset di 3 trilioni di token costruito da AI2 aggregando sorgenti pubbliche: Common Crawl, The Stack (codice), Reddit, arXiv, Wikipedia, Project Gutenberg, Semantic Scholar. La pipeline di filtraggio, deduplicazione e rimozione di contenuti sensibili è interamente documentata e il codice di preprocessing è disponibile come pacchetto Python (dolma).

Dolma risolve un problema ricorrente dei modelli “open” precedenti: l’impossibilità di verificare cosa ci sia effettivamente nei dati di training e riprodurre i risultati senza accesso a dataset proprietari.

Architettura e training

OLMo adotta un’architettura transformer standard con RoPE e non-parametric layer norm. Le due taglie:

OLMo 1B — addestrato su 3T token
OLMo 7B — addestrato su 2,5T token, con finestra di contesto 2048

I benchmark pubblicati mostrano prestazioni paragonabili a Llama 2 7B sulle principali metriche zero-shot. L’obiettivo dichiarato del progetto non è superare lo stato dell’arte ma fornire alla comunità scientifica una base completa per lo studio dei meccanismi di training degli LLM.

OLMo 2 ed evoluzione

A novembre 2024 AI2 rilascia OLMo 2 con varianti 7B e 13B. Il nuovo training mix migliora qualità e stabilità, e il modello recupera terreno sui benchmark contro Llama 3.1 8B rimanendo completamente aperto in pesi, codice e dati.

OLMo rappresenta uno standard di trasparenza che poche altre famiglie di modelli (tra cui BLOOM, Pythia di EleutherAI, Amber) raggiungono. È uno strumento di riferimento per la ricerca accademica sugli LLM.

Link: allenai.org/olmo

Azienda

Azioni

Links

Prodotti

Soluzioni

Settori

OLMo: il modello 'truly open' di Allen Institute for AI

Servizi & Sistemi Linux

Riproducibilità come obiettivo di rilascio

Il dataset Dolma

Architettura e training

OLMo 2 ed evoluzione