Un progetto scientifico collettivo
BLOOM — BigScience Large Open-science Open-access Multilingual Language Model — è il risultato del workshop BigScience, un’iniziativa scientifica collaborativa di un anno (maggio 2021 – maggio 2022) coordinata da Hugging Face e a cui hanno partecipato oltre 1000 ricercatori da più di 70 paesi. Il modello viene rilasciato il 12 luglio 2022.
BigScience è strutturato come un workshop accademico tradizionale, con working group tematici: architettura, dati, tokenizzazione, ingegneria, etica, valutazione, governance del progetto. Il modello che ne risulta è pensato fin dall’inizio come un artefatto di ricerca pubblica, non come prodotto commerciale.
Caratteristiche tecniche
BLOOM è un transformer decoder-only da 176 miliardi di parametri con le seguenti caratteristiche:
- 46 lingue naturali, con particolare copertura di lingue sotto-rappresentate (spagnolo, arabo, lingue africane, lingue indiane)
- 13 linguaggi di programmazione
- Tokenizer BPE con vocabolario di 250.680 token, progettato per equilibrio tra lingue
- Architettura basata su ALiBi (attention with linear biases) per positional encoding
Il training è stato eseguito sul supercomputer Jean Zay presso IDRIS/CNRS in Francia, con 384 GPU NVIDIA A100 80GB per 117 giorni, utilizzando un budget computazionale fornito da GENCI (Grand Équipement National de Calcul Intensif).
Il dataset ROOTS di training copre 1,6 TB di testo in 46 lingue, con composizione e provenienza documentate.
La licenza Responsible AI License
BLOOM è rilasciato sotto Responsible AI License (RAIL), una licenza che include restrizioni d’uso per categorie specifiche (ad esempio sorveglianza di massa, disinformazione, generazione di contenuti illegali). Non è quindi una licenza approvata da Open Source Initiative (OSI) in senso stretto — il concetto di “open access” adottato da BigScience è distinto da quello di “open source” tradizionale.
Le restrizioni d’uso sono elencate in un allegato alla licenza e si applicano all’uso del modello, non alla redistribuzione del codice.
Eredità
BLOOM ha stabilito un precedente per la ricerca collaborativa multinazionale su LLM di frontiera. Le varianti BLOOMZ (fine-tuned per instruction-following multilingue) sono state rilasciate successivamente. Il progetto ha influenzato direttamente iniziative successive come OLMo e la crescita dell’ecosistema Hugging Face.
