Il successore di MPT
Il 27 marzo 2024 Databricks, tramite il team Mosaic Research (ex MosaicML, acquisita nel giugno 2023), rilascia DBRX, un modello Mixture-of-Experts di grandi dimensioni. DBRX sostituisce la linea MPT e rappresenta la prima iterazione pubblica del team dopo l’acquisizione.
Il modello è distribuito nelle varianti DBRX Base (pre-trained) e DBRX Instruct (fine-tuned per seguire istruzioni) su Hugging Face.
MoE fine-grained
DBRX adotta un’architettura Mixture-of-Experts fine-grained, una variante che aumenta il numero di esperti totali riducendone la dimensione individuale. I parametri:
- 132 miliardi di parametri totali
- 36 miliardi di parametri attivi per token
- 16 esperti totali, di cui 4 attivi per token
Il confronto con Mixtral 8x7B è diretto: Mixtral ha 8 esperti con 2 attivi (ratio 1:4), DBRX ha 16 esperti con 4 attivi (stesso ratio 1:4 ma con granularità doppia). Il paper di Databricks argomenta che la maggior granularità aumenta la capacità combinatoria del router e migliora la specializzazione.
Altre caratteristiche:
- Context window di 32.768 token
- Tokenizer GPT-4 tiktoken (cl100k_base)
- Training su 12 trilioni di token di dati filtrati
- Posizionamento con RoPE
Licenza Databricks Open Model
DBRX non è rilasciato sotto Apache 2.0 o MIT. La licenza è la Databricks Open Model License, progettata sul modello della licenza Llama di Meta: permette l’uso, la redistribuzione, il fine-tuning e la creazione di derivati, con la restrizione che le organizzazioni con più di 700 milioni di utenti attivi mensili devono richiedere un accordo commerciale separato con Databricks.
La licenza include anche una Acceptable Use Policy che vieta usi illeciti, violenti o ingannevoli. Per l’uso aziendale standard — la stragrande maggioranza dei casi pratici — la licenza è equivalente in pratica a una licenza permissiva.
Posizionamento
DBRX è stato rilasciato in un momento in cui l’ecosistema open source MoE si stava consolidando (Mixtral 8x7B a dicembre 2023, Grok-1 a marzo 2024). I benchmark pubblicati da Databricks al rilascio mostrano DBRX competitivo con GPT-3.5 e Llama 2 70B su diversi task, con particolare enfasi sulla programmazione e il ragionamento matematico.
Il modello è integrato nella piattaforma Databricks come base per fine-tuning domain-specific e applicazioni enterprise.
Link: www.databricks.com/dbrx
