Un modello per uso commerciale
Il 5 maggio 2023 MosaicML rilascia MPT-7B (MosaicML Pretrained Transformer), modello di 7 miliardi di parametri sotto licenza Apache 2.0. La scelta della licenza è deliberatamente rivolta alle aziende: a differenza di Llama 2 (non ancora rilasciato al momento) o della prima versione di Falcon, MPT può essere utilizzato commercialmente senza restrizioni né royalty.
A giugno 2023 segue MPT-30B, con 30 miliardi di parametri, ottimizzato per l’esecuzione su una singola GPU 80GB in precisione 16-bit.
Innovazioni architetturali
MPT introduce nello spazio open source alcune scelte tecniche rilevanti:
- ALiBi (Attention with Linear Biases) come positional encoding — consente l’estrapolazione su lunghezze di contesto superiori a quelle di training senza re-training
- FlashAttention — implementazione IO-aware dell’attenzione, riduce tempi di training e inferenza
- Assenza di bias nei layer linear e nei layer norm — migliora stabilità di training
- Tokenizer EleutherAI GPT-NeoX 20B
Il training di MPT-7B è stato eseguito su 1 trilione di token con un costo pubblicato di circa 200.000 USD, dimostrando che la frontiera open source era raggiungibile anche con budget di training moderati.
Varianti specializzate
MosaicML rilascia diverse varianti fine-tuned di MPT:
- MPT-7B-Instruct — instruction following
- MPT-7B-Chat — conversazione in stile assistente
- MPT-7B-StoryWriter-65K+ — context window esteso a 65.000 token (addestrato su libri), dimostrazione pratica della capacità di ALiBi di gestire sequenze lunghe
Le varianti Instruct e Chat sono sotto Apache 2.0; StoryWriter sotto CC-BY-SA-3.0 per vincoli del dataset di fine-tuning.
Acquisizione Databricks e transizione a DBRX
A giugno 2023 Databricks annuncia l’acquisizione di MosaicML per 1,3 miliardi di dollari. Il team MosaicML viene integrato in Databricks come Mosaic AI Research. La linea MPT non riceve ulteriori aggiornamenti maggiori e viene successivamente sostituita da DBRX (marzo 2024), che adotta un’architettura Mixture-of-Experts.
MPT rimane un riferimento storico per il periodo 2023 in cui l’ecosistema open source commerciale si è consolidato, e i suoi pesi sono tuttora disponibili su Hugging Face per scopi di ricerca e confronto.
Link: www.mosaicml.com
