DBRX: il Mixture-of-Experts open source di Databricks

Databricks / Mosaic Research rilascia DBRX il 27 marzo 2024: MoE fine-grained con 132B parametri totali, 36B attivi, 16 esperti di cui 4 attivi per token, context 32K.

Open SourceAI Open SourceDBRXDatabricksMoELLMAI

Il successore di MPT

Il 27 marzo 2024 Databricks, tramite il team Mosaic Research (ex MosaicML, acquisita nel giugno 2023), rilascia DBRX, un modello Mixture-of-Experts di grandi dimensioni. DBRX sostituisce la linea MPT e rappresenta la prima iterazione pubblica del team dopo l’acquisizione.

Il modello è distribuito nelle varianti DBRX Base (pre-trained) e DBRX Instruct (fine-tuned per seguire istruzioni) su Hugging Face.

MoE fine-grained

DBRX adotta un’architettura Mixture-of-Experts fine-grained, una variante che aumenta il numero di esperti totali riducendone la dimensione individuale. I parametri:

  • 132 miliardi di parametri totali
  • 36 miliardi di parametri attivi per token
  • 16 esperti totali, di cui 4 attivi per token

Il confronto con Mixtral 8x7B è diretto: Mixtral ha 8 esperti con 2 attivi (ratio 1:4), DBRX ha 16 esperti con 4 attivi (stesso ratio 1:4 ma con granularità doppia). Il paper di Databricks argomenta che la maggior granularità aumenta la capacità combinatoria del router e migliora la specializzazione.

Altre caratteristiche:

  • Context window di 32.768 token
  • Tokenizer GPT-4 tiktoken (cl100k_base)
  • Training su 12 trilioni di token di dati filtrati
  • Posizionamento con RoPE

Licenza Databricks Open Model

DBRX non è rilasciato sotto Apache 2.0 o MIT. La licenza è la Databricks Open Model License, progettata sul modello della licenza Llama di Meta: permette l’uso, la redistribuzione, il fine-tuning e la creazione di derivati, con la restrizione che le organizzazioni con più di 700 milioni di utenti attivi mensili devono richiedere un accordo commerciale separato con Databricks.

La licenza include anche una Acceptable Use Policy che vieta usi illeciti, violenti o ingannevoli. Per l’uso aziendale standard — la stragrande maggioranza dei casi pratici — la licenza è equivalente in pratica a una licenza permissiva.

Posizionamento

DBRX è stato rilasciato in un momento in cui l’ecosistema open source MoE si stava consolidando (Mixtral 8x7B a dicembre 2023, Grok-1 a marzo 2024). I benchmark pubblicati da Databricks al rilascio mostrano DBRX competitivo con GPT-3.5 e Llama 2 70B su diversi task, con particolare enfasi sulla programmazione e il ragionamento matematico.

Il modello è integrato nella piattaforma Databricks come base per fine-tuning domain-specific e applicazioni enterprise.

Link: www.databricks.com/dbrx

Vuoi supporto? Sei sotto attacco? Stato dei servizi
Vuoi supporto? Sei sotto attacco? Stato dei servizi