Un rilascio che ridefinisce l’accesso ai modelli
Nel febbraio 2023, Meta pubblica LLaMA (Large Language Model Meta AI), una famiglia di modelli linguistici con dimensioni che vanno da 7 a 65 miliardi di parametri. La particolarità non è solo nelle prestazioni — competitive con GPT-3 pur utilizzando una frazione dei parametri — ma nella decisione di rendere i pesi accessibili alla comunità di ricerca. In un panorama dominato da modelli proprietari accessibili solo tramite API, LLaMA introduce una discontinuità significativa.
I modelli sono addestrati esclusivamente su dati pubblicamente disponibili: Common Crawl, Wikipedia, GitHub, ArXiv, Books3, Stack Exchange. La scelta è deliberata: dimostrare che è possibile raggiungere prestazioni di stato dell’arte senza dipendere da dataset proprietari, rendendo il processo di addestramento riproducibile dalla comunità scientifica.
Architettura e scelte tecniche
LLaMA adotta un’architettura decoder-only Transformer, la stessa famiglia architetturale di GPT, con alcune modifiche tecniche rilevanti. La RMSNorm (Root Mean Square Layer Normalization) sostituisce la LayerNorm standard, riducendo il costo computazionale della normalizzazione senza perdita di qualità. L’attivazione SwiGLU rimpiazza la tradizionale ReLU nei livelli feed-forward, migliorando l’efficienza dell’apprendimento.
Le rotary positional embeddings (RoPE) codificano le informazioni posizionali direttamente nell’attenzione, consentendo al modello di generalizzare meglio su sequenze di lunghezza variabile rispetto agli embedding posizionali assoluti. Queste scelte architetturali diventeranno lo standard de facto per i modelli linguistici successivi.
Impatto sull’ecosistema
Il modello da 65 miliardi di parametri raggiunge prestazioni paragonabili a GPT-3 (175B parametri) su diversi benchmark, mentre il modello da 13B supera GPT-3 su molti compiti nonostante possa essere eseguito su una singola GPU. Questa efficienza apre scenari inediti: la ricerca sui modelli linguistici non è più limitata alle organizzazioni con risorse computazionali enormi.
Un nuovo equilibrio
Il rilascio di LLaMA sposta il dibattito sui modelli linguistici aperti dal piano teorico a quello pratico. Le università, i laboratori di ricerca indipendenti e le aziende che non possono permettersi i costi di addestramento di un modello proprietario ottengono accesso a un punto di partenza competitivo. L’industria dell’intelligenza artificiale, fino a quel momento concentrata attorno a pochi fornitori di API, inizia a diversificarsi.
Link: ai.meta.com/llama
