Cosa è GLM 5.2
Tra il 13 e il 17 giugno 2026 Z.ai (già Zhipu AI) ha rilasciato GLM 5.2 in più fasi: prima sul GLM Coding Plan (13 giugno), poi con la pubblicazione dei pesi aperti su Hugging Face (16 giugno) e infine con documentazione e benchmark (17 giugno). È il successore diretto di GLM-5.1 nella linea GLM (4.5 → 4.6 → 5 → 5.1 → 5.2).
Le caratteristiche, derivabili dalla scheda modello e dal config.json pubblicato con i pesi:
- Architettura Mixture-of-Experts (non dense): circa 753 miliardi di parametri totali, di cui ~40 miliardi attivi per token. I file dei pesi pesano circa 1,5 TB in BF16 (circa 750 GB nella variante FP8).
- Contesto da 1 milione di token (era 200K in GLM-5.1) e output fino a ~128–131K token.
- Modello di reasoning con due livelli di “thinking effort”; solo testo (nessun input multimodale).
- Licenza MIT — verificata sul file
LICENSEdel repository — con pesi scaricabili da Hugging Face (zai-org/GLM-5.2, più una variante FP8). Permissiva: uso commerciale, modifica, fine-tuning, ridistribuzione e self-hosting senza canoni né restrizioni d’uso. - API e prezzi su z.ai: circa 1,40 $/milione di token in input e 4,40 $/milione in output (gli stessi di GLM-5.1), con il GLM Coding Plan a partire da poche decine di dollari al mese.
Il posizionamento dichiarato è netto: coding ad alte prestazioni e task agentici “long-horizon”, con endpoint compatibile Anthropic — quindi utilizzabile da subito in ambienti come Claude Code, Cline e OpenCode.
Quanto è forte (e chi lo dice)
Qui serve una distinzione che facciamo sempre: separare i numeri dichiarati dal produttore dalle misurazioni indipendenti.
Il dato indipendente più solido viene da Artificial Analysis: nel loro Intelligence Index GLM 5.2 segna 51, ed è il miglior modello open-weight in classifica — sette punti sopra il secondo open (MiniMax-M3 e DeepSeek V4 Pro a 44, Kimi K2.6 a 43) e con un balzo di +11 punti su GLM-5.1. In assoluto si colloca quarto, dietro solo a tre modelli closed: Claude Fable 5 (60), Claude Opus 4.8 (56) e GPT-5.5 (55). Sempre da valutazioni indipendenti, su Code Arena è secondo nei task di sviluppo frontend, e l’analista Simon Willison lo definisce “probabilmente il più capace LLM open-weight solo-testo”.
Z.ai pubblica poi i propri benchmark — ad esempio SWE-bench Pro 62,1, GPQA-Diamond 91,2, Terminal-Bench 81,0 — ma vanno letti come dati auto-riportati: i re-run indipendenti di Artificial Analysis restituiscono valori più bassi (GPQA-Diamond intorno all’89%, Terminal-Bench intorno al 78%), per via di scaffolding e configurazioni di test diversi. Due caveat onesti dalle stesse fonti indipendenti: il modello è “token-hungry” (consuma molti più token di ragionamento per task rispetto al predecessore), e mostra qualche regressione sui compiti creativi rispetto a GLM-5.1. Il quadro, insomma, è quello di un modello molto forte su coding e agentic — non di una supremazia assoluta su ogni metrica.
Resta il punto che ha fatto notizia: prestazioni di coding nella stessa fascia dei modelli di frontiera occidentali a una frazione del costo (la stampa parla di circa un sesto rispetto a GPT-5.5 su alcuni benchmark long-horizon).
Il punto per noi: frontiera che puoi possedere
Il dettaglio che conta davvero non è un benchmark, è la licenza. GLM 5.2 è un modello di frontiera open-weight sotto MIT: i pesi si scaricano, si eseguono dove vuoi, non li può spegnere nessuno. È esattamente la tesi che abbiamo argomentato pochi giorni fa raccontando come un governo abbia potuto disattivare un modello commerciale da un giorno all’altro — e, nota a margine, il modello al vertice della classifica indipendente, Claude Fable 5, è proprio quello. Un modello che possiedi non ha quel rischio.
Onestà tecnica, però: “open-weight” non significa “gira sul portatile”. Servono risorse da datacenter — circa 8 GPU H200 per la versione FP8 (~750 GB), il doppio in BF16. Le quantizzazioni della community (GGUF per llama.cpp, Ollama, LM Studio) abbassano l’asticella a costo di qualità, ma il self-hosting pieno è realistico per chi ha un cluster GPU o noleggia capacità cloud. Per molti team l’API gestita resta la scelta pragmatica; il self-hosting si giustifica con requisiti di compliance, data residency o throughput sostenuto. È lo stesso ragionamento dietro alle nostre workstation AI on-premise e all’uso di runtime come vLLM e Ollama.
Sovranità e compliance: pesi locali ≠ API in Cina
C’è una distinzione che un’impresa o una PA europea deve tenere ferma, perché è di natura giuridica, non di qualità del modello.
- Eseguire i pesi in locale o in cloud privato UE significa che prompt, contesto e dati restano sulla propria infrastruttura: nessun sub-processor da verificare, nessun trasferimento transfrontaliero da documentare. La data residency diventa una proprietà dell’architettura. La licenza MIT, oltretutto, non pone restrizioni regionali o d’uso.
- Usare l’API ospitata da Z.ai (in Cina) è un profilo di rischio diverso: i dati transitano in giurisdizione cinese, soggetta alla National Intelligence Law (2017) e al regime PIPL sui trasferimenti. Per un titolare UE configura un trasferimento extra-UE da valutare sotto GDPR (artt. 44 e seguenti), con DPIA e base giuridica adeguata. Va inoltre ricordato che Zhipu AI è nella Entity List del Dipartimento del Commercio USA dal gennaio 2025: non impedisce di usare pesi MIT in locale, ma è un elemento di due diligence per chi instrada dati verso l’API.
Niente allarmismo: è esattamente il tipo di valutazione che facciamo nei progetti di governance dell’AI. La conclusione operativa è che, con i pesi aperti, la scelta torna in mano all’organizzazione.
Cosa fare
- Valutarlo dove eccelle. Per coding e flussi agentici, GLM 5.2 è oggi un candidato serio, soprattutto sul rapporto costo/prestazioni. Verificate sui vostri task, non sui benchmark.
- Decidere pesi vs API in base alla compliance. Dati sensibili, PA, settori regolati → self-host o endpoint con residency UE. Carichi non critici → l’API gestita può bastare, con la due diligence di cui sopra.
- Non legarsi a un singolo modello. Un gateway con fallback multi-vendor rende GLM 5.2 una scelta di instradamento, non una dipendenza rigida.
- Sfruttare l’ondata open-weight. GLM si affianca a DeepSeek V4, Qwen e Gemma: una pluralità di modelli scaricabili e competitivi è, di per sé, una riduzione del rischio di kill-switch di un singolo fornitore. È la differenza tra subire una roadmap e governarla — il senso del nostro lavoro sull’intelligenza artificiale e di prodotti come Admina e IntelliPA.
Dove siamo
Al momento in cui scriviamo, il 20 giugno, GLM 5.2 è il riferimento open-weight del momento: il miglior punteggio indipendente della categoria e il primo, tra gli open, a insidiare da vicino i modelli di frontiera closed. Restano da consolidare alcune valutazioni indipendenti su benchmark che Z.ai non ha ancora pubblicato (SWE-bench Verified, LiveCodeBench, Aider): come sempre, i numeri vanno confermati sul campo. Ma il messaggio di fondo è già chiaro, ed è quello che ci interessa: l’intelligenza di frontiera, ormai, si può anche possedere.
Link: Z.ai — GLM 5.2 blog · Hugging Face — zai-org/GLM-5.2 · Artificial Analysis · Simon Willison