Un modello dagli Emirati
A maggio 2023 il Technology Innovation Institute (TII), centro di ricerca governativo di Abu Dhabi, rilascia Falcon 40B e Falcon 7B, due LLM che si collocano in testa alle classifiche pubbliche di Hugging Face al momento del rilascio. La licenza iniziale prevedeva royalty sull’uso commerciale oltre una certa soglia di fatturato; a giugno 2023 TII modifica la licenza in Apache 2.0 pura, rimuovendo ogni restrizione.
A settembre 2023 segue Falcon 180B, con 180 miliardi di parametri addestrati su 3,5 trilioni di token: al rilascio è il più grande LLM open source disponibile.
Il dataset RefinedWeb
Una delle scelte distintive di Falcon è la costruzione del dataset di pre-training. RefinedWeb è un dataset di circa 5 trilioni di token derivato da CommonCrawl attraverso una pipeline di filtraggio aggressiva: deduplicazione fuzzy, rimozione di contenuti di bassa qualità, filtri URL e normalizzazione del testo. TII ha pubblicato un sottoinsieme di 600 miliardi di token di RefinedWeb come contributo alla comunità di ricerca.
Il paper di accompagnamento argomenta che dati web filtrati correttamente possono sostituire i corpus curati (libri, codice, Wikipedia) come sorgente primaria di pre-training, semplificando la pipeline e aumentando la scalabilità.
Architettura
Falcon utilizza un’architettura transformer decoder-only con alcune scelte specifiche:
- Multi-query attention (MQA) — condivisione di una sola coppia key-value tra tutte le query heads, riducendo memoria e banda passante durante l’inferenza
- Rotary positional embeddings (RoPE) — posizionamento relativo che consente l’estrapolazione oltre la lunghezza di training
- Parallel attention + MLP — calcolo simultaneo dei blocchi attenzione e feed-forward per parallelizzazione su GPU
Il training è stato eseguito su cluster AWS con fino a 4096 GPU A100.
Successori
A marzo 2024 TII rilascia Falcon 2 (11B), seguito nel 2024 dalla linea Falcon 3 con varianti da 1B, 3B, 7B e 10B in formati base, instruct e mamba. I modelli più recenti adottano la licenza TII Falcon License 2.0, compatibile con gli usi commerciali standard ma con alcune clausole di uso responsabile.
Falcon rappresenta uno dei pochi esempi di modello open source di frontiera sviluppato al di fuori dell’asse USA-Europa-Cina, e ha contribuito a diversificare geograficamente l’ecosistema degli LLM aperti.
Link: falconllm.tii.ae
