Un modello per uso commerciale
Il 5 maggio 2023 MosaicML rilascia MPT-7B (MosaicML Pretrained Transformer), modello di 7 miliardi di parametri sotto licenza Apache 2.0. La scelta della licenza è deliberatamente rivolta alle aziende: a differenza di Llama 2 (non ancora rilasciato al momento) o della prima versione di Falcon, MPT può essere utilizzato commercialmente senza restrizioni né royalty.
Un successore più grande, MPT-30B, è pianificato per le settimane successive come modello ottimizzato per l’esecuzione su una singola GPU 80GB in precisione 16-bit.
Innovazioni architetturali
MPT introduce nello spazio Open Source alcune scelte tecniche rilevanti:
- ALiBi (Attention with Linear Biases) come positional encoding — consente l’estrapolazione su lunghezze di contesto superiori a quelle di training senza re-training
- FlashAttention — implementazione IO-aware dell’attenzione, riduce tempi di training e inferenza
- Assenza di bias nei layer linear e nei layer norm — migliora stabilità di training
- Tokenizer EleutherAI GPT-NeoX 20B
Il training di MPT-7B è stato eseguito su 1.000 miliardi di token con un costo pubblicato di circa 200.000 USD, dimostrando che la frontiera Open Source era raggiungibile anche con budget di training moderati.
Varianti specializzate
MosaicML rilascia diverse varianti fine-tuned di MPT:
- MPT-7B-Instruct — instruction following
- MPT-7B-Chat — conversazione in stile assistente
- MPT-7B-StoryWriter-65K+ — context window esteso a 65.000 token (addestrato su libri), dimostrazione pratica della capacità di ALiBi di gestire sequenze lunghe
Le varianti Instruct e Chat sono sotto Apache 2.0; StoryWriter sotto CC-BY-SA-3.0 per vincoli del dataset di fine-tuning.
Significato
MPT rappresenta una tappa significativa per l’ecosistema Open Source commerciale: modelli con qualità di frontiera, licenza Apache 2.0 pulita e scelte architetturali (ALiBi, FlashAttention) che influenzeranno i training successivi.
Link: www.mosaicml.com