Servizi & Sistemi Linux

Domini, hosting, PEC, infrastruttura email, servizi di rete e sistemi Linux. Assistenza e gestione dell’infrastruttura Open Source.

Scopri →

Un modello per uso commerciale

Il 5 maggio 2023 MosaicML rilascia MPT-7B (MosaicML Pretrained Transformer), modello di 7 miliardi di parametri sotto licenza Apache 2.0. La scelta della licenza è deliberatamente rivolta alle aziende: a differenza di Llama 2 (non ancora rilasciato al momento) o della prima versione di Falcon, MPT può essere utilizzato commercialmente senza restrizioni né royalty.

A giugno 2023 segue MPT-30B, con 30 miliardi di parametri, ottimizzato per l’esecuzione su una singola GPU 80GB in precisione 16-bit.

Innovazioni architetturali

MPT introduce nello spazio open source alcune scelte tecniche rilevanti:

ALiBi (Attention with Linear Biases) come positional encoding — consente l’estrapolazione su lunghezze di contesto superiori a quelle di training senza re-training
FlashAttention — implementazione IO-aware dell’attenzione, riduce tempi di training e inferenza
Assenza di bias nei layer linear e nei layer norm — migliora stabilità di training
Tokenizer EleutherAI GPT-NeoX 20B

Il training di MPT-7B è stato eseguito su 1 trilione di token con un costo pubblicato di circa 200.000 USD, dimostrando che la frontiera open source era raggiungibile anche con budget di training moderati.

Varianti specializzate

MosaicML rilascia diverse varianti fine-tuned di MPT:

MPT-7B-Instruct — instruction following
MPT-7B-Chat — conversazione in stile assistente
MPT-7B-StoryWriter-65K+ — context window esteso a 65.000 token (addestrato su libri), dimostrazione pratica della capacità di ALiBi di gestire sequenze lunghe

Le varianti Instruct e Chat sono sotto Apache 2.0; StoryWriter sotto CC-BY-SA-3.0 per vincoli del dataset di fine-tuning.

Acquisizione Databricks e transizione a DBRX

A giugno 2023 Databricks annuncia l’acquisizione di MosaicML per 1,3 miliardi di dollari. Il team MosaicML viene integrato in Databricks come Mosaic AI Research. La linea MPT non riceve ulteriori aggiornamenti maggiori e viene successivamente sostituita da DBRX (marzo 2024), che adotta un’architettura Mixture-of-Experts.

MPT rimane un riferimento storico per il periodo 2023 in cui l’ecosistema open source commerciale si è consolidato, e i suoi pesi sono tuttora disponibili su Hugging Face per scopi di ricerca e confronto.

Link: www.mosaicml.com

Azienda

Azioni

Links

Prodotti

Soluzioni

Settori

MPT: i modelli open source commerciali di MosaicML

Servizi & Sistemi Linux

Un modello per uso commerciale

Innovazioni architetturali

Varianti specializzate

Acquisizione Databricks e transizione a DBRX