Un contributo cinese all’ecosistema aperto
Alibaba Cloud rilascia Qwen (通义千问, letteralmente “mille domande di saggezza universale”), una famiglia di modelli linguistici che copre dimensioni da 0.5 a 72 miliardi di parametri. In un ecosistema dominato da modelli di origine statunitense ed europea, Qwen rappresenta uno dei contributi più significativi dalla Cina al panorama dei modelli linguistici aperti, rilasciato sotto licenza Apache 2.0 senza restrizioni d’uso.
La famiglia Qwen si distingue per l’ampiezza dell’offerta: non un singolo modello, ma un ecosistema completo con varianti specializzate per compiti diversi, tutte addestrate su un corpus multilingue che include cinese, inglese e codice sorgente in diverse lingue di programmazione.
Architettura e supporto multilingue
L’architettura di base è un Transformer decoder-only con grouped-query attention (GQA), RMSNorm e SwiGLU, scelte tecniche allineate con lo stato dell’arte dei modelli contemporanei. Il tokenizer è ottimizzato per il supporto multilingue nativo: gestisce efficacemente cinese, inglese e codice sorgente senza la penalizzazione tipica dei tokenizer addestrati prevalentemente su testo inglese.
La finestra di contesto supporta fino a 32.768 token, con tecniche di estensione posizionale che consentono di gestire contesti più lunghi in fase di inferenza. Il modello da 72B raggiunge prestazioni competitive con Llama 2 70B sui benchmark inglesi, e prestazioni significativamente superiori sui benchmark cinesi.
Varianti specializzate
Qwen-Code è ottimizzato per la generazione e comprensione di codice sorgente, addestrato su un corpus aggiuntivo di repository pubblici. Qwen-Math è specializzato nel ragionamento matematico, con prestazioni che superano modelli generalisti di dimensioni superiori sui benchmark dedicati. Qwen-VL (Vision-Language) estende il modello alla comprensione di immagini, accettando input multimodali di testo e immagini.
Scala e accessibilità
La gamma di dimensioni — da 0.5B a 72B parametri — copre scenari che vanno dal deployment su dispositivi mobili all’inferenza su cluster GPU. I modelli più piccoli (0.5B, 1.8B) sono progettati per l’esecuzione su hardware edge con risorse minime, mentre i modelli più grandi competono con i modelli aperti più performanti sui principali benchmark. Tutti i modelli sono distribuiti tramite Hugging Face e ModelScope, con pesi disponibili in formato completo e quantizzato.
Link: qwenlm.github.io
