Un’architettura ibrida
Il 28 marzo 2024, AI21 Labs rilascia Jamba, presentato come il primo modello linguistico production-grade a combinare blocchi Mamba (State Space Models) con layer di attention tradizionali e componenti Mixture-of-Experts. L’obiettivo dichiarato è unire l’efficienza degli SSM nella gestione di sequenze lunghe con la capacità di ragionamento contestuale dei Transformer.
A differenza dei modelli basati esclusivamente su attention, la cui complessità cresce in modo quadratico con la lunghezza della sequenza, Jamba impiega blocchi alternati in cui la componente Mamba contribuisce con una complessità lineare. Il risultato è un modello capace di gestire una finestra di contesto di 256.000 token mantenendo un consumo di memoria notevolmente ridotto rispetto a un Transformer puro equivalente.
Struttura e parametri
Jamba conta 52 miliardi di parametri totali, di cui 12 miliardi attivi grazie al routing MoE. L’architettura è organizzata in blocchi che alternano layer SSM e attention in un rapporto fissato, con moduli MoE selettivamente attivi. Questo schema permette di trasferire sulle componenti Mamba la gestione della memoria di lungo termine, riservando all’attention il ragionamento locale più preciso.
La versione iniziale è pubblicata con licenza Apache 2.0, rendendo il modello riutilizzabile anche in ambiti commerciali senza restrizioni. Nel rilascio di Jamba 1.5, avvenuto nell’agosto 2024, AI21 introduce la propria Jamba Open Model License, che mantiene un’elevata apertura ma introduce alcune condizioni specifiche sull’uso e sulla redistribuzione.
Rilevanza tecnica
Jamba è significativo perché dimostra che architetture ibride SSM-Transformer possono raggiungere qualità competitive con i modelli puramente Transformer, aprendo una direzione di ricerca alternativa al paradigma dominante. La combinazione di context window estesa e costo computazionale ridotto lo rende particolarmente adatto a casi d’uso che richiedono l’elaborazione di documenti lunghi — analisi legale, rassegna scientifica, RAG con chunk estesi — senza ricorrere a tecniche di compressione del contesto.
Link: ai21.com/jamba
