Gemma: Google rilascia modelli aperti compatti

Google DeepMind rilascia Gemma: modelli da 2B e 7B parametri derivati dalla tecnologia Gemini, con architettura decoder-only, multi-query attention e licenza permissiva per deployment su hardware limitato.

Open SourceAI Open SourceGemmaLLMGoogleAIEdge

Google entra nel campo dei modelli aperti

A febbraio 2024, Google DeepMind rilascia Gemma, una famiglia di modelli linguistici aperti con 2 e 7 miliardi di parametri. Il nome richiama la parola latina per “gemma preziosa” e segnala la connessione con Gemini, la famiglia di modelli proprietari di Google. Gemma condivide con Gemini parte dell’infrastruttura di addestramento e delle scelte architetturali, ma è progettata specificamente per il deployment su hardware con risorse limitate.

La decisione di Google di rilasciare modelli aperti arriva in un momento in cui l’ecosistema dei modelli linguistici accessibili è già ricco — Llama, Mistral, Phi — ma nessuno dei concorrenti ha accesso ai dati e all’infrastruttura di addestramento di Google. Gemma porta nel campo open un modello addestrato con le risorse di uno dei più grandi laboratori di ricerca al mondo.

Architettura e specifiche tecniche

Gemma adotta un’architettura decoder-only Transformer con alcune scelte tecniche mirate all’efficienza. La variante da 2B utilizza la multi-query attention (MQA), dove tutte le query head condividono un singolo insieme di chiavi e valori. Questo riduce drasticamente la dimensione della KV cache durante l’inferenza, rendendo il modello eseguibile su dispositivi con memoria limitata — laptop, smartphone, dispositivi edge.

La variante da 7B utilizza la multi-head attention standard, bilanciando capacità e costo computazionale per scenari dove le risorse sono meno vincolate. Entrambe le varianti utilizzano RMSNorm per la normalizzazione, GeGLU come funzione di attivazione e rotary positional embeddings (RoPE) per la codifica posizionale.

Varianti e deployment

Ogni dimensione è disponibile in due varianti: il modello base (pre-trained) è il modello instruction-tuned, ottimizzato per seguire istruzioni in formato conversazionale. I modelli instruction-tuned sono addestrati con tecniche di RLHF (Reinforcement Learning from Human Feedback) e sono progettati per un utilizzo diretto senza ulteriore fine-tuning.

Licenza e accessibilità

Gemma è rilasciato con una licenza permissiva che consente l’uso commerciale, la redistribuzione è la creazione di opere derivate. I modelli sono distribuiti tramite Hugging Face, Kaggle è il Vertex AI Model Garden di Google Cloud. La disponibilità in formato GGUF consente l’esecuzione tramite framework come llama.cpp e Ollama su hardware consumer.

Link: ai.google.dev/gemma

Vuoi supporto? Sei sotto attacco? Stato dei servizi
Vuoi supporto? Sei sotto attacco? Stato dei servizi