Servizi & Sistemi Linux

Domini, hosting, PEC, infrastruttura email, servizi di rete e sistemi Linux. Assistenza e gestione dell'infrastruttura Open Source.

Scopri →

Un rilascio che ridefinisce l’accesso ai modelli

Nel febbraio 2023, Meta pubblica LLaMA (Large Language Model Meta AI), una famiglia di modelli linguistici con dimensioni che vanno da 7 a 65 miliardi di parametri. La particolarità non è solo nelle prestazioni — competitive con GPT-3 pur utilizzando una frazione dei parametri — ma nella decisione di rendere i pesi accessibili alla comunità di ricerca. In un panorama dominato da modelli proprietari accessibili solo tramite API, LLaMA introduce una discontinuità significativa.

I modelli sono addestrati esclusivamente su dati pubblicamente disponibili: Common Crawl, Wikipedia, GitHub, ArXiv, Books3, Stack Exchange. La scelta è deliberata: dimostrare che è possibile raggiungere prestazioni di stato dell’arte senza dipendere da dataset proprietari, rendendo il processo di addestramento riproducibile dalla comunità scientifica.

Architettura e scelte tecniche

LLaMA adotta un’architettura decoder-only Transformer, la stessa famiglia architetturale di GPT, con alcune modifiche tecniche rilevanti. La RMSNorm (Root Mean Square Layer Normalization) sostituisce la LayerNorm standard, riducendo il costo computazionale della normalizzazione senza perdita di qualità. L’attivazione SwiGLU rimpiazza la tradizionale ReLU nei livelli feed-forward, migliorando l’efficienza dell’apprendimento.

Le rotary positional embeddings (RoPE) codificano le informazioni posizionali direttamente nell’attenzione, consentendo al modello di generalizzare meglio su sequenze di lunghezza variabile rispetto agli embedding posizionali assoluti. Queste scelte architetturali diventeranno lo standard de facto per i modelli linguistici successivi.

Impatto sull’ecosistema

Il modello da 65 miliardi di parametri raggiunge prestazioni paragonabili a GPT-3 (175B parametri) su diversi benchmark, mentre il modello da 13B supera GPT-3 su molti compiti nonostante possa essere eseguito su una singola GPU. Questa efficienza apre scenari inediti: la ricerca sui modelli linguistici non è più limitata alle organizzazioni con risorse computazionali enormi.

Un nuovo equilibrio

Il rilascio di LLaMA sposta il dibattito sui modelli linguistici aperti dal piano teorico a quello pratico. Le università, i laboratori di ricerca indipendenti e le aziende che non possono permettersi i costi di addestramento di un modello proprietario ottengono accesso a un punto di partenza competitivo. L’industria dell’intelligenza artificiale, fino a quel momento concentrata attorno a pochi fornitori di API, inizia a diversificarsi.

Link: ai.meta.com/llama

Azienda

Azioni

Links

Prodotti

Soluzioni

Settori

Llama: Meta apre l'era dei modelli linguistici aperti

Servizi & Sistemi Linux

Un rilascio che ridefinisce l’accesso ai modelli

Architettura e scelte tecniche

Impatto sull’ecosistema

Un nuovo equilibrio