AIHealth
Piattaforma clinica on-premise con LLM locali, RAG su dati FHIR/DICOM, supporto alla diagnosi, follow-up remoto. Architettura progettata per il percorso MDR.
Scopri AIHealth →
Digital Health
Sviluppo di software medicale conforme agli standard normativi CE e MDR. Sistemi di supporto alle decisioni cliniche, integrazione AI nei flussi di lavoro clinici.
Scopri →LLM in medicina: da ChatGPT ai modelli open
Dal rilascio di ChatGPT (novembre 2022) e GPT-4 (marzo 2023), i large language model sono diventati oggetto di intensa attenzione medica — tanto per le promesse (riassunto di letteratura, risposta a domande cliniche, supporto documentale, assistenza ai pazienti) quanto per i limiti (allucinazioni, assenza di citazioni verificabili, privacy dei dati). L’uso in sanità di LLM proprietari cloud-only è ostacolato da vincoli strutturali:
- Privacy: i dati clinici non possono uscire dal perimetro del titolare senza basi giuridiche rigorose (GDPR art. 9)
- Aggiornamento della conoscenza: un modello addestrato con cutoff di dati del 2023 non conosce linee guida 2024-2025
- Citabilità: un clinico ha bisogno di sapere da quale fonte arriva una raccomandazione
- Auditability: ogni raccomandazione deve essere ricostruibile e contestabile
- Conformità EU AI Act (Regolamento 2024/1689, in vigore da agosto 2024): dispositivi medici AI sono sistemi ad alto rischio con obblighi specifici
La risposta emergente nel 2024-2025 è una combinazione: LLM open source (eseguiti on-premise su infrastruttura controllata) + RAG (Retrieval-Augmented Generation) (ancoraggio delle risposte a fonti verificabili, recuperate dinamicamente) + dati sanitari strutturati (FHIR, DICOM, OMOP) come input contestuale. Al luglio 2025 questa pila è matura.
Gli LLM open source disponibili
L’ecosistema open-weights al 2025 offre scelte credibili:
Famiglia Llama (Meta)
- Llama 3.1 (luglio 2024): varianti 8B, 70B, 405B parametri — licenza Meta LLaMA 3.1 Community License (open-weights con alcune restrizioni su uso in scala)
- Llama 3.2 (settembre 2024): modelli 1B, 3B, 11B, 90B, con varianti multi-modali
- Llama 3.3 (dicembre 2024): versione 70B ottimizzata in prestazioni
- Llama 4 (2025): varianti con architetture Mixture-of-Experts, performance superiori
Mistral AI (Francia)
- Mistral 7B (settembre 2023): baseline di ingresso
- Mixtral 8x7B e Mixtral 8x22B (2023-2024): MoE
- Mistral Small, Mistral Large (2024-2025): modelli di punta
- Licenza Apache 2.0 per le versioni open-weights
Gemma (Google)
- Gemma 2 (giugno 2024): versioni 2B, 9B, 27B
- Gemma 3 (2025): varianti multi-modali, miglioramenti sostanziali
- Licenza Gemma terms of use (open-weights)
DeepSeek
- DeepSeek-V3 (dicembre 2024): MoE 671B parametri, ~37B attivi
- DeepSeek-R1 (gennaio 2025): modello con capacità di reasoning step-by-step, rilascio pubblico con licenza MIT
- Qualità di ragionamento comparabile a modelli proprietari top
Qwen (Alibaba)
- Qwen 2.5 (fine 2024): 0.5B-72B con varianti specialistiche (math, coder)
- Apache 2.0
Modelli specializzati biomedici
- Meditron (EPFL, 2023): Llama-2 fine-tuned su PubMed + linee guida cliniche internazionali
- Med42 (M42 AI, 2024): basato su Llama, addestrato su dataset clinici
- BioMistral (2024): fine-tuning di Mistral su letteratura biomedica
- MedGemma (2025): annunciato da Google, fine-tuning di Gemma su task clinici
RAG: Retrieval-Augmented Generation
Il paradigma RAG — formalizzato nel 2020 da Lewis et al. (FAIR/Meta) nel paper “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks” — separa conoscenza e ragionamento:
- Una knowledge base esterna (documenti, linee guida, letteratura, cartelle cliniche) è indicizzata in un vector database
- Alla domanda dell’utente, un retriever recupera i documenti più rilevanti (similarità semantica basata su embedding)
- L’LLM genera la risposta condizionata sui documenti recuperati, citandoli esplicitamente
Per il contesto clinico, RAG offre vantaggi fondamentali:
- Aggiornamento senza retraining: aggiungere documenti alla knowledge base è immediato
- Citability: ogni risposta può essere supportata da fonti identificabili
- Riduzione allucinazioni: il modello è condizionato su documenti reali invece che sul puro prior parametrico
- Auditability: ogni step è loggato e verificabile
Stack tecnico
Un’implementazione tipica RAG clinica on-premise usa componenti open source:
Inferenza LLM locale
- vLLM (UC Berkeley, 2023+) — server di inference ad alta throughput, supporto paged attention
- llama.cpp (Georgi Gerganov, 2023+) — inference C++ con quantizzazione aggressiva (GGUF), gira su CPU e GPU consumer
- Ollama — packaging user-friendly di llama.cpp con API REST
- Text Generation Inference (Hugging Face) — server HF con support multi-GPU, tensor parallelism
Embedding
- sentence-transformers — libreria Python con modelli di embedding
- BGE (Beijing Academy of AI), E5 (Microsoft), Jina Embeddings — modelli di embedding open source competitivi
- BioLORD, MedEmbed, SapBERT — embedding specializzati biomedici
Vector database
- Qdrant (Rust, MIT) — vector DB performante con filtering avanzato
- Chroma (Python, Apache 2.0) — orientato a simplicità per prototipazione
- Milvus (Apache 2.0) — scale-out production
- pgvector (PostgreSQL extension) — ibrido SQL + vector, adatto a sistemi esistenti
Orchestrazione
- LangChain (Python/JS, MIT) — framework per pipeline LLM
- LlamaIndex (Python, MIT) — focus su RAG e indexing
- Haystack (Apache 2.0) — framework NLP production-grade con RAG
Pattern d’uso in sanità
Question answering su linee guida
Un clinico chiede “qual è la terapia di prima linea per il carcinoma prostatico metastatico in paziente di 65 anni con comorbilità cardiovascolare?”. Il sistema recupera dalle linee guida (AIOM, EAU, NCCN) le pagine rilevanti, l’LLM genera una risposta ancorata con citazioni puntuali. Il clinico vede la risposta e le fonti.
Summary di storia clinica paziente
Dato l’FSE del paziente (documenti CDA/FHIR), il sistema genera un riassunto strutturato: problemi attivi, terapie, ultimi eventi significativi, trend di parametri. Il riassunto viene presentato al curante prima della visita.
Interpretazione di referti DICOM + testo
Pipeline multimodale: il modello visuale (tipo Gemma 3 multi-modal o MedGemma) analizza le immagini DICOM; l’LLM integra l’output con referto testuale e storia clinica per produrre un parere integrato. Sempre con citazioni.
Coding assistance
Su una lettera di dimissione, il sistema suggerisce i codici ICD-10/ICD-9-CM più appropriati, recuperando casi simili e linee guida di coding.
Farmacovigilanza attiva
Monitoraggio di note cliniche per segnali di eventi avversi da farmaci; RAG su AIFA Gazzetta/FDA FAERS per contestualizzare.
Q&A per pazienti (controllato)
Chatbot su informazioni sanitarie educative, con risposte ancorate a fonti istituzionali (Ministero Salute, ISS, AIFA); rigorosamente non diagnostico, più educativo.
Revisione di letteratura
Sintesi di trial clinici recenti per area terapeutica, con citazioni puntuali PubMed/Cochrane.
Deployment on-premise: architettura tipica
Un’implementazione clinica on-premise ha tipicamente:
- Cluster GPU aziendale — 4-8 GPU A100/H100 80GB o simili. Costo tra €80K-€400K a seconda della scala, ammortizzabile sulla durata del deployment
- Storage — volumi grandi per indici vettoriali (centinaia di GB) + archivio documentale
- Networking segmentato — rete dedicata GDPR-compliant, separata dalla rete generale
- Integrazione FSE/EHR — via API FHIR del Gateway FSE Sogei o delle cartelle aziendali
- Logging/audit trail — conforme all’EU AI Act per sistemi ad alto rischio: ogni interazione tracciata con input, output, citazioni, versione del modello
- Aggiornamento della knowledge base — pipeline ETL periodica che reindicizza linee guida aggiornate, letteratura, documenti interni
Conformità regolatoria
Al luglio 2025 il quadro è:
EU AI Act
- Entrato in vigore il 1° agosto 2024
- Per dispositivi medici AI: applicazione dei requisiti high-risk dal 2 agosto 2026 (Art. 6(1)) per dispositivi AI con certificazione da Organismo Notificato
- Obblighi: risk management, quality management, transparency, human oversight, post-market monitoring
- Importante: modelli GPAI (General-Purpose AI) come Llama/Mistral sono soggetti a obblighi propri; un prodotto clinico che li integra eredita gli obblighi sia come GPAI downstream integrator sia come dispositivo medico
MDR (Regolamento UE 2017/745)
- Pienamente applicabile dal maggio 2021
- Software clinico AI tipicamente Classe IIa (Regola 11 per diagnostic support)
- Un prodotto certificato con componenti LLM richiede la qualifica completa del modello: gestione del rischio, validazione clinica, post-market surveillance
EHDS (Regolamento UE 2025/327)
- In vigore dal 26 marzo 2025
- Primary use obbligatorio dal 26 marzo 2027, secondary use dal 26 marzo 2029
- I sistemi LLM clinici integrati con FSE devono essere compatibili con i requisiti di interoperabilità e accesso
GDPR
- I dati sanitari restano sotto art. 9(2)(h)
- DPIA obbligatoria per deployment su larga scala di sistemi AI con dati clinici
- Trasferimento extra-UE evitato naturalmente con deployment on-premise
Italia
- Decreto Ministero Salute 7 settembre 2023 su FSE 2.0
- Linee guida Garante su AI sanitaria in evoluzione
Vantaggi di open source + on-premise
Il pattern LLM open source + RAG on-premise risolve molti dei problemi che impediscono ai modelli proprietari cloud di entrare in sanità:
- Privacy: nessun dato esce dal perimetro aziendale
- Controllo del ciclo di vita: il modello è sotto controllo dell’organizzazione; aggiornamenti gestiti
- Auditability piena: tutto il comportamento è ispezionabile
- Customizzazione: fine-tuning su dati locali possibile
- Economia: no costi per token; investimento iniziale GPU ammortizzato
- Certificazione: più semplice qualificare un sistema locale controllato
Limiti e sfide
- Performance — i modelli open-weights top (Llama 3.3 70B, DeepSeek V3) sono ora competitivi con GPT-4, ma gap residuo su alcuni task molto difficili
- Infrastruttura — richiede competenze sistemistiche GPU non banali
- Qualità della knowledge base — il valore di RAG dipende dalla cura dell’indicizzazione; garbage in, garbage out
- Valutazione clinica — misurare la qualità di un sistema RAG in ambito medico richiede metriche (accuracy, hallucination rate, citation correctness) e studi clinici
- Gestione di bias — modelli GPAI possono riflettere bias dei corpora di training generalisti; mitigare richiede valutazione e possibile fine-tuning
- Ragionamento clinico complesso — LLM eccellono su richiamo di informazione; ragionamento multi-step con vincoli clinici complessi è ancora area di sviluppo. DeepSeek-R1 e modelli di reasoning stanno cambiando questo limite
Il contesto italiano
Al 2025 l’adozione italiana:
- IRCCS e grandi aziende ospedaliere — primi deployment RAG clinici sperimentali
- Aziende software sanitario italiane — integrazione LLM in prodotti gestionali
- Progetti di ricerca — studi di validazione clinica su sistemi RAG, con controllo di accuratezza e confronto con clinici
- Università — Torino, Milano, Pavia, Bologna, Pisa attive su valutazione di LLM medicali
- Partenariato con Sogei — FSE 2.0 come sorgente di dati strutturati per pipeline RAG
Il tema LLM italiani — modelli pre-addestrati specificamente su italiano clinico — è ancora aperto. Iniziative come IT5 (italiano generalista), BioBIT, LLaMAntino (Llama italiana) sono punti di partenza, ma modelli clinici italiani di qualità sono in costruzione.
Prospettive
Le direzioni attese nei prossimi mesi/anni:
- Modelli di reasoning più integrati con RAG — ragionamento clinico strutturato con retrieval
- Multimodalità completa — immagine + testo + segnali in un’unica pipeline
- Agent clinici — LLM che orchestrano multiple query (FHIR, DICOM, linee guida) per rispondere a domande complesse
- Valutazione clinica prospettica — primi studi prospettici randomizzati con controllo vs. pratica standard per misurare impatto sull’esito clinico
- Certificazione — primi dispositivi medici AI con componenti LLM certificati CE e FDA (alcuni annunci emergenti nel 2025)
- MONAI + LLM — integrazione di LLM clinici nel framework MONAI per imaging intelligence
- Contributi italiani — LLM italiani di qualità production per l’italiano clinico
Il pattern RAG + LLM open + on-premise rappresenta al 2025 la via praticabile per portare LLM di grande scala in sanità senza trasgredire i vincoli di privacy, governance e conformità regolatoria. È un’architettura che cresce di maturità ogni mese e che definirà il prossimo strato di supporto diagnostico e di gestione della conoscenza clinica per gli anni a venire.
Riferimenti: Llama 3.x (Meta AI, 2024-2025), Mistral (Mistral AI), Gemma (Google DeepMind), DeepSeek-V3/R1 (DeepSeek AI, 2024-2025), Qwen 2.5 (Alibaba). Meditron (EPFL, 2023), BioMistral (2024). Lewis et al., “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”, NeurIPS 2020. vLLM, llama.cpp, Ollama, Hugging Face TGI. LangChain, LlamaIndex, Haystack. Qdrant, Chroma, Milvus, pgvector. Regolamento (UE) 2024/1689 (EU AI Act). Regolamento (UE) 2025/327 (EHDS).