Llama: Meta apre l'era dei modelli linguistici aperti

Meta rilascia LLaMA, famiglia di modelli linguistici da 7 a 65 miliardi di parametri: architettura decoder-only con RMSNorm, SwiGLU e rotary embeddings, competitivi con GPT-3 a una frazione dei parametri.

Open SourceAI Open SourceLlamaLLMMetaAINLP

Un rilascio che ridefinisce l’accesso ai modelli

Nel febbraio 2023, Meta pubblica LLaMA (Large Language Model Meta AI), una famiglia di modelli linguistici con dimensioni che vanno da 7 a 65 miliardi di parametri. La particolarità non è solo nelle prestazioni — competitive con GPT-3 pur utilizzando una frazione dei parametri — ma nella decisione di rendere i pesi accessibili alla comunità di ricerca. In un panorama dominato da modelli proprietari accessibili solo tramite API, LLaMA introduce una discontinuità significativa.

I modelli sono addestrati esclusivamente su dati pubblicamente disponibili: Common Crawl, Wikipedia, GitHub, ArXiv, Books3, Stack Exchange. La scelta è deliberata: dimostrare che è possibile raggiungere prestazioni di stato dell’arte senza dipendere da dataset proprietari, rendendo il processo di addestramento riproducibile dalla comunità scientifica.

Architettura e scelte tecniche

LLaMA adotta un’architettura decoder-only Transformer, la stessa famiglia architetturale di GPT, con alcune modifiche tecniche rilevanti. La RMSNorm (Root Mean Square Layer Normalization) sostituisce la LayerNorm standard, riducendo il costo computazionale della normalizzazione senza perdita di qualità. L’attivazione SwiGLU rimpiazza la tradizionale ReLU nei livelli feed-forward, migliorando l’efficienza dell’apprendimento.

Le rotary positional embeddings (RoPE) codificano le informazioni posizionali direttamente nell’attenzione, consentendo al modello di generalizzare meglio su sequenze di lunghezza variabile rispetto agli embedding posizionali assoluti. Queste scelte architetturali diventeranno lo standard de facto per i modelli linguistici successivi.

Impatto sull’ecosistema

Il modello da 65 miliardi di parametri raggiunge prestazioni paragonabili a GPT-3 (175B parametri) su diversi benchmark, mentre il modello da 13B supera GPT-3 su molti compiti nonostante possa essere eseguito su una singola GPU. Questa efficienza apre scenari inediti: la ricerca sui modelli linguistici non è più limitata alle organizzazioni con risorse computazionali enormi.

Un nuovo equilibrio

Il rilascio di LLaMA sposta il dibattito sui modelli linguistici aperti dal piano teorico a quello pratico. Le università, i laboratori di ricerca indipendenti e le aziende che non possono permettersi i costi di addestramento di un modello proprietario ottengono accesso a un punto di partenza competitivo. L’industria dell’intelligenza artificiale, fino a quel momento concentrata attorno a pochi fornitori di API, inizia a diversificarsi.

Link: ai.meta.com/llama

Vuoi supporto? Sei sotto attacco? Stato dei servizi
Vuoi supporto? Sei sotto attacco? Stato dei servizi