AIHealth

Piattaforma clinica on-premise con LLM locali, RAG su dati FHIR/DICOM, supporto alla diagnosi, follow-up remoto. Architettura progettata per il percorso MDR.

Scopri AIHealth →

Digital Health

Sviluppo di software medicale conforme agli standard normativi CE e MDR. Sistemi di supporto alle decisioni cliniche, integrazione AI nei flussi di lavoro clinici.

Scopri →

LLM in medicina: da ChatGPT ai modelli open

Dal rilascio di ChatGPT (novembre 2022) e GPT-4 (marzo 2023), i large language model sono diventati oggetto di intensa attenzione medica — tanto per le promesse (riassunto di letteratura, risposta a domande cliniche, supporto documentale, assistenza ai pazienti) quanto per i limiti (allucinazioni, assenza di citazioni verificabili, privacy dei dati). L’uso in sanità di LLM proprietari cloud-only è ostacolato da vincoli strutturali:

Privacy: i dati clinici non possono uscire dal perimetro del titolare senza basi giuridiche rigorose (GDPR art. 9)
Aggiornamento della conoscenza: un modello addestrato con cutoff di dati del 2023 non conosce linee guida 2024-2025
Citabilità: un clinico ha bisogno di sapere da quale fonte arriva una raccomandazione
Auditability: ogni raccomandazione deve essere ricostruibile e contestabile
Conformità EU AI Act (Regolamento 2024/1689, in vigore da agosto 2024): dispositivi medici AI sono sistemi ad alto rischio con obblighi specifici

La risposta emergente nel 2024-2025 è una combinazione: LLM open source (eseguiti on-premise su infrastruttura controllata) + RAG (Retrieval-Augmented Generation) (ancoraggio delle risposte a fonti verificabili, recuperate dinamicamente) + dati sanitari strutturati (FHIR, DICOM, OMOP) come input contestuale. Al luglio 2025 questa pila è matura.

Gli LLM open source disponibili

L’ecosistema open-weights al 2025 offre scelte credibili:

Famiglia Llama (Meta)

Llama 3.1 (luglio 2024): varianti 8B, 70B, 405B parametri — licenza Meta LLaMA 3.1 Community License (open-weights con alcune restrizioni su uso in scala)
Llama 3.2 (settembre 2024): modelli 1B, 3B, 11B, 90B, con varianti multi-modali
Llama 3.3 (dicembre 2024): versione 70B ottimizzata in prestazioni
Llama 4 (2025): varianti con architetture Mixture-of-Experts, performance superiori

Mistral AI (Francia)

Mistral 7B (settembre 2023): baseline di ingresso
Mixtral 8x7B e Mixtral 8x22B (2023-2024): MoE
Mistral Small, Mistral Large (2024-2025): modelli di punta
Licenza Apache 2.0 per le versioni open-weights

Gemma (Google)

Gemma 2 (giugno 2024): versioni 2B, 9B, 27B
Gemma 3 (2025): varianti multi-modali, miglioramenti sostanziali
Licenza Gemma terms of use (open-weights)

DeepSeek

DeepSeek-V3 (dicembre 2024): MoE 671B parametri, ~37B attivi
DeepSeek-R1 (gennaio 2025): modello con capacità di reasoning step-by-step, rilascio pubblico con licenza MIT
Qualità di ragionamento comparabile a modelli proprietari top

Qwen (Alibaba)

Qwen 2.5 (fine 2024): 0.5B-72B con varianti specialistiche (math, coder)
Apache 2.0

Modelli specializzati biomedici

Meditron (EPFL, 2023): Llama-2 fine-tuned su PubMed + linee guida cliniche internazionali
Med42 (M42 AI, 2024): basato su Llama, addestrato su dataset clinici
BioMistral (2024): fine-tuning di Mistral su letteratura biomedica
MedGemma (2025): annunciato da Google, fine-tuning di Gemma su task clinici

RAG: Retrieval-Augmented Generation

Il paradigma RAG — formalizzato nel 2020 da Lewis et al. (FAIR/Meta) nel paper “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks” — separa conoscenza e ragionamento:

Una knowledge base esterna (documenti, linee guida, letteratura, cartelle cliniche) è indicizzata in un vector database
Alla domanda dell’utente, un retriever recupera i documenti più rilevanti (similarità semantica basata su embedding)
L’LLM genera la risposta condizionata sui documenti recuperati, citandoli esplicitamente

Per il contesto clinico, RAG offre vantaggi fondamentali:

Aggiornamento senza retraining: aggiungere documenti alla knowledge base è immediato
Citability: ogni risposta può essere supportata da fonti identificabili
Riduzione allucinazioni: il modello è condizionato su documenti reali invece che sul puro prior parametrico
Auditability: ogni step è loggato e verificabile

Stack tecnico

Un’implementazione tipica RAG clinica on-premise usa componenti open source:

Inferenza LLM locale

vLLM (UC Berkeley, 2023+) — server di inference ad alta throughput, supporto paged attention
llama.cpp (Georgi Gerganov, 2023+) — inference C++ con quantizzazione aggressiva (GGUF), gira su CPU e GPU consumer
Ollama — packaging user-friendly di llama.cpp con API REST
Text Generation Inference (Hugging Face) — server HF con support multi-GPU, tensor parallelism

Embedding

sentence-transformers — libreria Python con modelli di embedding
BGE (Beijing Academy of AI), E5 (Microsoft), Jina Embeddings — modelli di embedding open source competitivi
BioLORD, MedEmbed, SapBERT — embedding specializzati biomedici

Vector database

Qdrant (Rust, MIT) — vector DB performante con filtering avanzato
Chroma (Python, Apache 2.0) — orientato a simplicità per prototipazione
Milvus (Apache 2.0) — scale-out production
pgvector (PostgreSQL extension) — ibrido SQL + vector, adatto a sistemi esistenti

Orchestrazione

LangChain (Python/JS, MIT) — framework per pipeline LLM
LlamaIndex (Python, MIT) — focus su RAG e indexing
Haystack (Apache 2.0) — framework NLP production-grade con RAG

Pattern d’uso in sanità

Question answering su linee guida

Un clinico chiede “qual è la terapia di prima linea per il carcinoma prostatico metastatico in paziente di 65 anni con comorbilità cardiovascolare?”. Il sistema recupera dalle linee guida (AIOM, EAU, NCCN) le pagine rilevanti, l’LLM genera una risposta ancorata con citazioni puntuali. Il clinico vede la risposta e le fonti.

Summary di storia clinica paziente

Dato l’FSE del paziente (documenti CDA/FHIR), il sistema genera un riassunto strutturato: problemi attivi, terapie, ultimi eventi significativi, trend di parametri. Il riassunto viene presentato al curante prima della visita.

Interpretazione di referti DICOM + testo

Pipeline multimodale: il modello visuale (tipo Gemma 3 multi-modal o MedGemma) analizza le immagini DICOM; l’LLM integra l’output con referto testuale e storia clinica per produrre un parere integrato. Sempre con citazioni.

Coding assistance

Su una lettera di dimissione, il sistema suggerisce i codici ICD-10/ICD-9-CM più appropriati, recuperando casi simili e linee guida di coding.

Farmacovigilanza attiva

Monitoraggio di note cliniche per segnali di eventi avversi da farmaci; RAG su AIFA Gazzetta/FDA FAERS per contestualizzare.

Q&A per pazienti (controllato)

Chatbot su informazioni sanitarie educative, con risposte ancorate a fonti istituzionali (Ministero Salute, ISS, AIFA); rigorosamente non diagnostico, più educativo.

Revisione di letteratura

Sintesi di trial clinici recenti per area terapeutica, con citazioni puntuali PubMed/Cochrane.

Deployment on-premise: architettura tipica

Un’implementazione clinica on-premise ha tipicamente:

Cluster GPU aziendale — 4-8 GPU A100/H100 80GB o simili. Costo tra €80K-€400K a seconda della scala, ammortizzabile sulla durata del deployment
Storage — volumi grandi per indici vettoriali (centinaia di GB) + archivio documentale
Networking segmentato — rete dedicata GDPR-compliant, separata dalla rete generale
Integrazione FSE/EHR — via API FHIR del Gateway FSE Sogei o delle cartelle aziendali
Logging/audit trail — conforme all’EU AI Act per sistemi ad alto rischio: ogni interazione tracciata con input, output, citazioni, versione del modello
Aggiornamento della knowledge base — pipeline ETL periodica che reindicizza linee guida aggiornate, letteratura, documenti interni

Conformità regolatoria

Al luglio 2025 il quadro è:

EU AI Act

Entrato in vigore il 1° agosto 2024
Per dispositivi medici AI: applicazione dei requisiti high-risk dal 2 agosto 2026 (Art. 6(1)) per dispositivi AI con certificazione da Organismo Notificato
Obblighi: risk management, quality management, transparency, human oversight, post-market monitoring
Importante: modelli GPAI (General-Purpose AI) come Llama/Mistral sono soggetti a obblighi propri; un prodotto clinico che li integra eredita gli obblighi sia come GPAI downstream integrator sia come dispositivo medico

MDR (Regolamento UE 2017/745)

Pienamente applicabile dal maggio 2021
Software clinico AI tipicamente Classe IIa (Regola 11 per diagnostic support)
Un prodotto certificato con componenti LLM richiede la qualifica completa del modello: gestione del rischio, validazione clinica, post-market surveillance

EHDS (Regolamento UE 2025/327)

In vigore dal 26 marzo 2025
Primary use obbligatorio dal 26 marzo 2027, secondary use dal 26 marzo 2029
I sistemi LLM clinici integrati con FSE devono essere compatibili con i requisiti di interoperabilità e accesso

I dati sanitari restano sotto art. 9(2)(h)
DPIA obbligatoria per deployment su larga scala di sistemi AI con dati clinici
Trasferimento extra-UE evitato naturalmente con deployment on-premise

Italia

Decreto Ministero Salute 7 settembre 2023 su FSE 2.0
Linee guida Garante su AI sanitaria in evoluzione

Vantaggi di open source + on-premise

Il pattern LLM open source + RAG on-premise risolve molti dei problemi che impediscono ai modelli proprietari cloud di entrare in sanità:

Privacy: nessun dato esce dal perimetro aziendale
Controllo del ciclo di vita: il modello è sotto controllo dell’organizzazione; aggiornamenti gestiti
Auditability piena: tutto il comportamento è ispezionabile
Customizzazione: fine-tuning su dati locali possibile
Economia: no costi per token; investimento iniziale GPU ammortizzato
Certificazione: più semplice qualificare un sistema locale controllato

Limiti e sfide

Performance — i modelli open-weights top (Llama 3.3 70B, DeepSeek V3) sono ora competitivi con GPT-4, ma gap residuo su alcuni task molto difficili
Infrastruttura — richiede competenze sistemistiche GPU non banali
Qualità della knowledge base — il valore di RAG dipende dalla cura dell’indicizzazione; garbage in, garbage out
Valutazione clinica — misurare la qualità di un sistema RAG in ambito medico richiede metriche (accuracy, hallucination rate, citation correctness) e studi clinici
Gestione di bias — modelli GPAI possono riflettere bias dei corpora di training generalisti; mitigare richiede valutazione e possibile fine-tuning
Ragionamento clinico complesso — LLM eccellono su richiamo di informazione; ragionamento multi-step con vincoli clinici complessi è ancora area di sviluppo. DeepSeek-R1 e modelli di reasoning stanno cambiando questo limite

Il contesto italiano

Al 2025 l’adozione italiana:

IRCCS e grandi aziende ospedaliere — primi deployment RAG clinici sperimentali
Aziende software sanitario italiane — integrazione LLM in prodotti gestionali
Progetti di ricerca — studi di validazione clinica su sistemi RAG, con controllo di accuratezza e confronto con clinici
Università — Torino, Milano, Pavia, Bologna, Pisa attive su valutazione di LLM medicali
Partenariato con Sogei — FSE 2.0 come sorgente di dati strutturati per pipeline RAG

Il tema LLM italiani — modelli pre-addestrati specificamente su italiano clinico — è ancora aperto. Iniziative come IT5 (italiano generalista), BioBIT, LLaMAntino (Llama italiana) sono punti di partenza, ma modelli clinici italiani di qualità sono in costruzione.

Prospettive

Le direzioni attese nei prossimi mesi/anni:

Modelli di reasoning più integrati con RAG — ragionamento clinico strutturato con retrieval
Multimodalità completa — immagine + testo + segnali in un’unica pipeline
Agent clinici — LLM che orchestrano multiple query (FHIR, DICOM, linee guida) per rispondere a domande complesse
Valutazione clinica prospettica — primi studi prospettici randomizzati con controllo vs. pratica standard per misurare impatto sull’esito clinico
Certificazione — primi dispositivi medici AI con componenti LLM certificati CE e FDA (alcuni annunci emergenti nel 2025)
MONAI + LLM — integrazione di LLM clinici nel framework MONAI per imaging intelligence
Contributi italiani — LLM italiani di qualità production per l’italiano clinico

Il pattern RAG + LLM open + on-premise rappresenta al 2025 la via praticabile per portare LLM di grande scala in sanità senza trasgredire i vincoli di privacy, governance e conformità regolatoria. È un’architettura che cresce di maturità ogni mese e che definirà il prossimo strato di supporto diagnostico e di gestione della conoscenza clinica per gli anni a venire.

Riferimenti: Llama 3.x (Meta AI, 2024-2025), Mistral (Mistral AI), Gemma (Google DeepMind), DeepSeek-V3/R1 (DeepSeek AI, 2024-2025), Qwen 2.5 (Alibaba). Meditron (EPFL, 2023), BioMistral (2024). Lewis et al., “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”, NeurIPS 2020. vLLM, llama.cpp, Ollama, Hugging Face TGI. LangChain, LlamaIndex, Haystack. Qdrant, Chroma, Milvus, pgvector. Regolamento (UE) 2024/1689 (EU AI Act). Regolamento (UE) 2025/327 (EHDS).

RAG clinico con LLM open source: architetture on-premise per il supporto alla diagnostica