Mistral: il modello linguistico open source dall'Europa

Mistral AI rilascia Mistral 7B sotto licenza Apache 2.0: sliding window attention, grouped-query attention e byte-fallback BPE tokenizer. Supera Llama 2 13B con la metà dei parametri.

Open SourceAI Open SourceMistralLLMAIEuropaTransformer

Un modello europeo competitivo

Nel settembre 2023, Mistral AI — startup fondata a Parigi da ex ricercatori di Meta e Google DeepMind — rilascia Mistral 7B sotto licenza Apache 2.0, senza alcuna restrizione d’uso. Al momento del rilascio, è il primo modello linguistico di origine europea a raggiungere prestazioni competitive con modelli significativamente più grandi, e il primo a farlo con una licenza completamente aperta.

Mistral 7B supera Llama 2 13B sulla maggior parte dei benchmark standard — ragionamento, comprensione del linguaggio, generazione di codice — utilizzando la metà dei parametri. La differenza di efficienza è rilevante non solo in termini di costi computazionali, ma di accessibilità: un modello da 7 miliardi di parametri può essere eseguito su hardware molto più economico rispetto a uno da 13 miliardi.

Scelte architetturali

L’architettura di Mistral 7B introduce tre innovazioni tecniche rispetto ai modelli della stessa generazione. La sliding window attention (SWA) limita il calcolo dell’attenzione a una finestra di token fissa (4.096 token) per ogni layer, anziché calcolare l’attenzione su tutta la sequenza. Le informazioni oltre la finestra vengono propagate indirettamente attraverso i layer successivi, consentendo al modello di gestire contesti lunghi con un costo computazionale che cresce linearmente anziché quadraticamente.

La grouped-query attention (GQA) riduce il numero di chiavi e valori nell’attenzione raggruppando più query head sotto le stesse coppie key-value. Il risultato è una riduzione significativa della memoria necessaria per la KV cache durante l’inferenza, senza degradazione misurabile della qualità.

Il byte-fallback BPE tokenizer gestisce qualsiasi sequenza di byte, inclusi caratteri non presenti nel vocabolario di addestramento. Quando il tokenizer incontra un token sconosciuto, lo decompone nei singoli byte piuttosto che generare un token speciale di errore. Questo approccio garantisce robustezza multilingue e la capacità di processare formati di testo non standard.

Licenza e implicazioni

La scelta della licenza Apache 2.0 — senza le restrizioni d’uso presenti nella licenza di Llama 2 — rende Mistral 7B utilizzabile in qualsiasi contesto commerciale senza limitazioni. Per l’ecosistema europeo dell’intelligenza artificiale, Mistral rappresenta una prova che la competitività nel campo dei modelli fondazionali non è esclusiva di laboratori statunitensi o cinesi.

Link: mistral.ai

Vuoi supporto? Sei sotto attacco? Stato dei servizi
Vuoi supporto? Sei sotto attacco? Stato dei servizi