AIHealth
Piattaforma clinica on-premise con LLM locali, RAG su dati FHIR/DICOM, supporto alla diagnosi, follow-up remoto. Architettura progettata per il percorso MDR.
Scopri AIHealth →
Digital Health
Sviluppo di software medicale conforme agli standard normativi CE e MDR. Sistemi di supporto alle decisioni cliniche, integrazione AI nei flussi di lavoro clinici.
Scopri →Il paradigma dei foundation model per segmentazione
La sequenza deep learning → U-Net → nnU-Net ha reso la segmentazione addestrabile alla portata di qualunque gruppo con dataset di qualche centinaio di immagini. Il passaggio successivo — foundation model — propone un modello pre-addestrato su scala enorme, che si adatta a nuovi task senza fine-tuning attraverso prompting: l’utente fornisce un suggerimento (un click, una box, un testo) e il modello produce la segmentazione richiesta.
Il lavoro di riferimento è Segment Anything Model (SAM) — pubblicato da Meta AI nell’aprile 2023 con il paper “Segment Anything” di Alexander Kirillov, Eric Mintun, Nikhila Ravi et al. L’adattamento al dominio medico è arrivato rapidamente con MedSAM di Jun Ma e collaboratori (Università di Toronto / Vector Institute), pubblicato in Nature Communications nel gennaio 2024.
SAM (Segment Anything)
SAM è un foundation model per segmentazione con le seguenti caratteristiche tecniche:
- Architettura: image encoder ViT (Vision Transformer) grande + prompt encoder + mask decoder leggero
- Dataset di training: SA-1B (Segment Anything 1 Billion) — 1.1 miliardi di maschere su 11 milioni di immagini naturali, raccolte da Meta con un approccio semi-automatico (ciclo di annotazione AI-assisted con humans-in-the-loop)
- Prompting: l’utente fornisce uno o più prompt per specificare cosa segmentare:
- Punti (foreground/background)
- Bounding box
- Maschera grossolana
- Testo (limited support)
- Zero-shot generalization: SAM può segmentare oggetti di classi mai viste in training
- Licenza Apache 2.0; i pesi dei modelli (ViT-B 375MB, ViT-L 1.2GB, ViT-H 2.5GB) sono pubblici
L’architettura è pensata per l’inferenza separata encoder/decoder: l’immagine è processata una volta dall’encoder pesante; ogni successiva interazione di prompt è veloce, gestita dal decoder leggero. Questo rende SAM utilizzabile in interattività real-time — punto cruciale per applicazioni di annotazione umana.
Il limite di SAM su dati medici
Nonostante la generalità, SAM ha performance subottimali su molti task medicali:
- Il training su immagini naturali (foto di oggetti, paesaggi, persone) non copre bene la variabilità di modalità mediche (TC, MR, US, endoscopia, istologia)
- Le strutture di interesse medico (tumori, lesioni) spesso hanno bordi poco definiti o contrasto complesso — casi in cui SAM dà prompt troppo generici
- Alcuni pattern visivi medicali specifici (tessuto molle omogeneo, artefatti di scansione) non sono nel prior di SAM
Come dimostrato in molteplici valutazioni indipendenti su dataset medicali standard, SAM puro produce risultati mediocri o poco affidabili per lesioni tumorali, strutture anatomiche complesse, microstruttura istologica.
MedSAM
MedSAM risolve il problema con un approccio pragmatico: fine-tuning di SAM su dati medicali su scala. Il team di Jun Ma ha raccolto:
- Oltre 1.5 milioni di coppie immagine-maschera medicali
- Provenienti da dataset pubblici di molteplici modalità (TC, MR, US, endoscopia, dermatologia, raggi X, istologia, OCT)
- Copertura di ossa, organi, lesioni, strutture patologiche
Il modello è stato fine-tuned a partire dai pesi SAM pubblici, con prompting primariamente basato su bounding box (più stabile dei click point per applicazioni mediche). Il risultato, documentato in Nature Communications di gennaio 2024, è un modello che:
- Mantiene la generalità prompt-based di SAM
- Supera SAM originale su task medicali di un ordine di grandezza in accuracy
- È comparabile o migliore di modelli task-specific su molti benchmark
- È distribuito con licenza Apache 2.0 e pesi pubblici
Il paper MedSAM include anche contributi su strategie di prompting efficaci in medicina, addestramento efficiente (pochi giorni di training su GPU singola), valutazione cross-modality.
Varianti e ottimizzazioni
Dal 2023 al 2024 è emersa una famiglia di derivati e specializzazioni:
- MedSAM-Lite — versione compatta ottimizzata per inferenza veloce su GPU modeste
- SAMed (Wu et al. 2023) — fine-tuning con LoRA (Low-Rank Adaptation)
- AutoSAM — generazione automatica di prompt da immagini
- SegVol (2024) — estensione a volumi 3D con prompting 3D
- Medical-SAM-Adapter — adattamento modulare per modalità specifiche
- nnSAM — combinazione con nnU-Net in pipeline ibride
SAM 2
Il 30 luglio 2024 Meta ha rilasciato SAM 2, estensione principale del modello originale:
- Supporto nativo a video — prompting di oggetti in frame singoli si propaga ai frame successivi
- Performance migliorata su immagini statiche
- Licenza Apache 2.0 mantenuta
- Rilevanza medicale: SAM 2 si applica naturalmente a dati temporali (ecografia dinamica, fluoroscopia, video endoscopici, cine MR cardiaco) e a dati volumetrici 3D trattati come “video” spaziale
- La comunità sta lavorando a MedSAM-2 — fine-tuning di SAM 2 su dati medicali, atteso nei mesi successivi al rilascio SAM 2
Integrazione con workflow clinici
L’integrazione di SAM/MedSAM negli strumenti di imaging open source è in rapido sviluppo:
- MONAI Label ha aggiunto supporto SAM/MedSAM come backbone per DeepGrow e DeepEdit — un utente clicca, il modello SAM-based produce segmentazione iniziale
- 3D Slicer — estensioni sperimentali consentono prompting SAM su volumi MR/TC
- OHIF + Cornerstone3D — integrazione via MONAI Label server
- QuPath — plugin SAM per patologia digitale (prompting di cellule, ghiandole, tessuti)
- napari (ambiente Python per microscopia) — plugin SAM per annotazione biologica
- ITK-SNAP, altri editor di segmentazione — varianti con SAM
Il pattern ricorrente: il clinico/ricercatore fornisce prompt minimali (una box o 2-3 click) invece di disegnare manualmente; il modello produce il resto; il clinico corregge se necessario.
Prospettive applicative
I pattern emergenti:
Annotazione di dataset
Il caso d’uso più immediato: accelerare la creazione di dataset annotati. Un annotatore che prima richiedeva 30 minuti per volume ora impiega 5-10 minuti. Impatto lineare sulla produttività.
Segmentazione interattiva in clinica
In workflow radiologici/radioterapici dove la segmentazione manuale è parte del processo clinico (pianificazione RT, misurazioni specifiche), SAM/MedSAM riducono tempo e variabilità.
Interfacce utente conversazionali
Combinazione con LLM → “segmenta il tumore al polmone destro” → LLM traduce in prompt SAM → MedSAM segmenta. Il clinico interagisce in linguaggio naturale.
Zero-shot su strutture rare
Per strutture o patologie rare con dataset di training insufficienti, SAM/MedSAM consentono segmentazioni utili senza training dedicato.
Pipeline combinate
SAM/MedSAM per generazione rapida di bounding box + nnU-Net/TotalSegmentator per raffinamento. Combinazione di generalità e specializzazione.
Limiti al 2024
- Non perfettamente accurato su strutture difficili — SAM/MedSAM resta uno strumento di produttività, non un sostituto di valutazione clinica
- Dipendenza da prompting di qualità — un prompt ambiguo porta a risultati ambigui
- Costo computazionale per l’encoder SAM — anche se l’inferenza dopo l’encoding è veloce, l’encoding iniziale richiede GPU potente
- Generalizzazione cross-modality limitata in versioni minori — le versioni “lite” possono avere performance degradate su modalità fuori training
- Regolamentazione — come per tutti gli strumenti AI open source, l’uso in prodotti clinici certificati richiede la qualifica usuale (IEC 62304, MDR, marcatura CE)
SAM e EU AI Act
Un tema emergente nel 2024 è il EU AI Act (Regolamento (UE) 2024/1689, pubblicato luglio 2024, in vigore 1 agosto 2024). Il Regolamento classifica i dispositivi medici AI come sistemi ad alto rischio (art. 6(1) + Annex I che include MDR). Un prodotto basato su SAM/MedSAM in contesto clinico è doppiamente regolato: MDR + AI Act. Gli obblighi combinati includono gestione del rischio specifica AI, trasparenza, documentazione, oversight umano, monitoring in produzione.
La licenza Apache 2.0 di SAM/MedSAM non ostacola l’uso in prodotti certificati, ma il producer finale resta responsabile della qualifica integrale.
Nel contesto italiano
Al 2024 i gruppi italiani di ricerca medicale iniziano a sperimentare SAM/MedSAM:
- Politecnico di Milano, Torino, Bologna, Verona — in pipeline di annotazione rapida per progetti di ricerca
- IRCCS — accelerazione di progetti di radiomica su coorti grandi
- Aziende sanitarie — alcune implementazioni sperimentali in radioterapia
L’adozione in produzione clinica richiederà tempo per la qualifica regolatoria; ma l’impatto sulla preparazione di dataset e sulla ricerca è già significativo.
Prospettive
Le direzioni attese nei prossimi mesi/anni:
- MedSAM-2 basato su SAM 2 con supporto volumetrico nativo
- Modelli multimodali clinici — combinazione SAM + LLM biomedico per interazione linguaggio+immagine
- Specializzazioni per modalità — MedSAM-MR, MedSAM-US, MedSAM-Path con fine-tuning su singole modalità
- Fine-tuning locale on-premise — piattaforme che consentono a un ospedale di specializzare MedSAM sui propri dati
- Valutazione clinica rigorosa — studi prospettici in reparto per misurare impatto su tempo clinico, accuratezza, soddisfazione professionisti
- Integrazione EHDS/secondary use — uso di MedSAM per generare segmentazioni su dataset sanitari condivisi in ambienti sicuri HDAB
SAM e MedSAM al 2024 rappresentano il nuovo paradigma dell’AI medicale: non modelli pre-addestrati su task specifici, ma modelli generali prompt-adattati a casi specifici. È un cambiamento concettuale rilevante quanto il passaggio dai metodi classici al deep learning nel 2012-2015.
Riferimenti: Alexander Kirillov, Eric Mintun, Nikhila Ravi et al. (Meta AI), “Segment Anything”, aprile 2023. Jun Ma et al. (University of Toronto / Vector Institute), “Segment anything in medical images”, Nature Communications, gennaio 2024. SAM 2 (Meta AI, luglio 2024). Licenze Apache 2.0. Integrazione con MONAI Label, 3D Slicer, QuPath, napari. Regolamento (UE) 2024/1689 (EU AI Act).