Google entra nel campo dei modelli aperti
A febbraio 2024, Google DeepMind rilascia Gemma, una famiglia di modelli linguistici aperti con 2 e 7 miliardi di parametri. Il nome richiama la parola latina per “gemma preziosa” e segnala la connessione con Gemini, la famiglia di modelli proprietari di Google. Gemma condivide con Gemini parte dell’infrastruttura di addestramento e delle scelte architetturali, ma è progettata specificamente per il deployment su hardware con risorse limitate.
La decisione di Google di rilasciare modelli aperti arriva in un momento in cui l’ecosistema dei modelli linguistici accessibili è già ricco — Llama, Mistral, Phi — ma nessuno dei concorrenti ha accesso ai dati e all’infrastruttura di addestramento di Google. Gemma porta nel campo open un modello addestrato con le risorse di uno dei più grandi laboratori di ricerca al mondo.
Architettura e specifiche tecniche
Gemma adotta un’architettura decoder-only Transformer con alcune scelte tecniche mirate all’efficienza. La variante da 2B utilizza la multi-query attention (MQA), dove tutte le query head condividono un singolo insieme di chiavi e valori. Questo riduce drasticamente la dimensione della KV cache durante l’inferenza, rendendo il modello eseguibile su dispositivi con memoria limitata — laptop, smartphone, dispositivi edge.
La variante da 7B utilizza la multi-head attention standard, bilanciando capacità e costo computazionale per scenari dove le risorse sono meno vincolate. Entrambe le varianti utilizzano RMSNorm per la normalizzazione, GeGLU come funzione di attivazione e rotary positional embeddings (RoPE) per la codifica posizionale.
Varianti e deployment
Ogni dimensione è disponibile in due varianti: il modello base (pre-trained) è il modello instruction-tuned, ottimizzato per seguire istruzioni in formato conversazionale. I modelli instruction-tuned sono addestrati con tecniche di RLHF (Reinforcement Learning from Human Feedback) e sono progettati per un utilizzo diretto senza ulteriore fine-tuning.
Licenza e accessibilità
Gemma è rilasciato con una licenza permissiva che consente l’uso commerciale, la redistribuzione è la creazione di opere derivate. I modelli sono distribuiti tramite Hugging Face, Kaggle è il Vertex AI Model Garden di Google Cloud. La disponibilità in formato GGUF consente l’esecuzione tramite framework come llama.cpp e Ollama su hardware consumer.
Link: ai.google.dev/gemma
