Mixtral: Sparse Mixture-of-Experts open source di Mistral AI

Mistral AI rilascia Mixtral 8x7B l'11 dicembre 2023 via torrent: architettura Sparse Mixture-of-Experts, 8 esperti da 7B, 2 attivi per token, context 32K, licenza Apache 2.0.

Open SourceAI Open SourceMixtralMoELLMAIMistral

Un rilascio via torrent

L’11 dicembre 2023, Mistral AI pubblica su X un link magnet torrent senza comunicato, senza blog post, senza paper. Il download contiene Mixtral 8x7B, il primo modello open source di grandi dimensioni basato su architettura Sparse Mixture-of-Experts (SMoE). La modalità di rilascio, diventata caratteristica dell’azienda, privilegia la distribuzione diretta ai pesi del modello rispetto all’annuncio istituzionale.

La licenza è Apache 2.0, senza restrizioni commerciali né clausole di accettable use. Il modello è disponibile su Hugging Face nei giorni successivi al rilascio iniziale.

Architettura Sparse MoE

Mixtral 8x7B non è un modello denso da 56 miliardi di parametri. È una rete con 8 esperti feed-forward (FFN) e un router per-token che, per ciascun token in ingresso, seleziona dinamicamente i 2 esperti più rilevanti. I parametri totali sono 46,7 miliardi, ma il numero di parametri attivati per ogni token è di circa 12,9 miliardi — una frazione del costo computazionale equivalente a un modello denso di quella dimensione.

Il routing è addestrato end-to-end insieme al resto della rete. Il gate di selezione applica un softmax sui logit del router e seleziona i top-2 esperti, i cui output vengono combinati con pesi proporzionali. Gli strati di attenzione sono condivisi tra tutti gli esperti; solo le feed-forward network sono specializzate.

La finestra di contesto è di 32.768 token, coerente con le scelte di Mistral 7B. La tokenizzazione utilizza lo stesso BPE byte-fallback del modello denso.

Prestazioni e successori

Al rilascio, Mixtral 8x7B supera Llama 2 70B sulla maggior parte dei benchmark pubblici e si colloca vicino a GPT-3.5 in diversi task, con una velocità di inferenza significativamente superiore grazie all’attivazione parziale dei parametri.

Ad aprile 2024 Mistral rilascia Mixtral 8x22B — 141 miliardi di parametri totali, 39 miliardi attivi, context 64K — sempre sotto Apache 2.0. La linea MoE si affianca alla linea dei modelli densi Mistral (7B, poi Mistral Large) mantenendo la stessa filosofia di pesi aperti e licenza permissiva.

Impatto sull’ecosistema

Mixtral ha dimostrato che architetture MoE, fino ad allora dominio di laboratori chiusi (Google Switch Transformer, GShard), sono praticabili anche in open source. Ha reso accessibili pesi di modelli con qualità paragonabile alle soluzioni commerciali, utilizzabili in ambienti on-premise o cloud privati senza vincoli di licenza.

Link: mistral.ai

Vuoi supporto? Sei sotto attacco? Stato dei servizi
Vuoi supporto? Sei sotto attacco? Stato dei servizi