AIHealth
Piattaforma clinica on-premise con LLM locali, RAG su dati FHIR/DICOM, supporto alla diagnosi, follow-up remoto. Architettura progettata per il percorso MDR.
Scopri AIHealth →
Digital Health
Sviluppo di software medicale conforme agli standard normativi CE e MDR. Sistemi di supporto alle decisioni cliniche, integrazione AI nei flussi di lavoro clinici.
Scopri →Segmentare è diverso da classificare
Le prime applicazioni mediche del deep learning — documentate in letteratura 2013-2015 — si sono concentrate principalmente sulla classificazione: data un’immagine (una mammografia, una retina, un’istologia), restituire una predizione categoriale (benigno/maligno, retinopatia/normale, sottotipo tumorale). I modelli utilizzati erano tipicamente AlexNet, GoogLeNet, VGG, addestrati originariamente su ImageNet e fine-tuned con transfer learning.
Un altro task — centrale nell’imaging medicale e più difficile — è la segmentazione: data un’immagine, produrre una mappa pixel-per-pixel che assegna a ciascun pixel una classe (tumore/non tumore, organo/sfondo, tipo di tessuto). La segmentazione è la base di molte misurazioni cliniche: volumetria tumorale, pianificazione di radioterapia, analisi di lesioni, quantificazione di strutture anatomiche.
Le architetture CNN usate per classificazione non si adattano direttamente a segmentazione: l’operazione di pooling aggressivo perde informazione spaziale fine, che è proprio quella necessaria per l’output pixel-level. I primi tentativi usavano approcci patch-based — scorrere una finestra sull’immagine, classificare il pixel centrale — lenti e con discontinuità ai bordi.
Nel maggio 2015, un gruppo dell’Università di Freiburg guidato da Thomas Brox ha pubblicato una soluzione elegante: U-Net.
L’architettura
U-Net — descritta nel paper “U-Net: Convolutional Networks for Biomedical Image Segmentation” di Olaf Ronneberger, Philipp Fischer e Thomas Brox, presentato a MICCAI 2015 (preprint ArXiv maggio 2015) — è una rete completamente convoluzionale (fully convolutional network) con una forma caratteristica a U.
La struttura:
- Contracting path (parte sinistra della U) — classica catena di conv → ReLU → conv → ReLU → max pool che riduce progressivamente la risoluzione spaziale e aumenta il numero di canali. Estrae feature gerarchiche di contesto crescente
- Expanding path (parte destra della U) — catena simmetrica di upconv → conv → ReLU → conv → ReLU che ricostruisce la risoluzione spaziale riducendo i canali. Produce la mappa di segmentazione
- Skip connections — le feature map del contracting path sono concatenate alle corrispondenti feature map dell’expanding path. Portano l’informazione a alta risoluzione direttamente ai layer di output, preservando i dettagli spaziali fini
Il risultato è un’architettura che simultaneamente vede il contesto globale (attraverso il percorso contracting) e preserva i dettagli locali (attraverso le skip connection). Il comportamento empirico eccelle specificamente sulle segmentazioni mediche, dove entrambi gli aspetti sono critici.
I risultati originali
Il paper originale documenta due esperimenti:
- ISBI 2012 EM segmentation challenge — segmentazione di neuroni in microscopia elettronica. U-Net vince
- ISBI 2015 cell tracking challenge — tracking di cellule in microscopia ottica time-lapse. U-Net vince entrambe le categorie (DIC-HeLa, PhC-U373)
Oltre ai risultati vincenti, il paper nota che U-Net funziona con pochi dati di training: sulla cell tracking challenge, le prestazioni sono ottenute con dataset di poche decine di immagini annotate, grazie all’uso massivo di data augmentation elastica (deformazioni elastiche delle immagini di training).
Per il mondo medico, la combinazione di pochi dati annotati (realtà comune) e prestazioni superiori è rivoluzionaria.
L’implementazione originale
La pubblicazione originale è accompagnata da codice Caffe pubblico (gitlab dell’Università di Freiburg), con modelli addestrati, script di training, documentazione. La disponibilità immediata del codice — sotto licenza GNU GPL — è cruciale: ogni gruppo di ricerca può riprodurre i risultati e adattare l’architettura al proprio caso.
La diffusione 2015-2017
Nei 18 mesi successivi alla pubblicazione, U-Net si diffonde rapidamente:
- Portabilità cross-framework — la semplicità dell’architettura consente ri-implementazioni rapide in TensorFlow (rilasciato novembre 2015), Keras, PyTorch (rilasciato gennaio 2017). GitHub al 2017 conta decine di implementazioni pubbliche di U-Net
- Adozione nelle challenge MICCAI — tra il 2015 e il 2017, U-Net o sue varianti vincono o arrivano tra i top in molte challenge di segmentazione (tumori cerebrali BRATS, lesioni multiple sclerosi, polmone, prostata, colon, occhio, istologia)
- Citazioni — il paper U-Net è tra i più citati in medical imaging recente (più di 2000 citazioni al 2017)
Estensioni: 3D U-Net
Molte immagini mediche sono tridimensionali — TC, RM sono volumi, non immagini singole. U-Net originale è 2D; si applica slice-by-slice trascurando il contesto inter-slice. Una naturale estensione è passare a convoluzioni 3D.
Özgün Çiçek et al. (2016), stesso gruppo Freiburg, pubblicano 3D U-Net: “3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation”, MICCAI 2016. La rete usa convoluzioni 3D in tutto il contracting/expanding path, trattando il volume come input tridimensionale. Un contributo chiave del paper: la capacità di addestrare con annotazioni sparse (singole slice annotate per volume) invece che annotazioni complete — riducendo drasticamente il costo di annotazione clinica.
V-Net
Un’altra estensione volumetrica è V-Net — “V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation” di Fausto Milletari, Nassir Navab, Seyed-Ahmad Ahmadi, presentato a 3DV 2016. V-Net introduce:
- Residual connections nei blocchi (inspirate dalle ResNet di He et al. 2015)
- Dice loss function — invece di cross-entropy, utilizza direttamente il coefficiente di Dice come loss. Molto efficace per task con forte squilibrio di classi (tipico in medicina: il tumore è spesso il 1-5% dei voxel)
V-Net è dimostrata su segmentazione della prostata in RM, un task tipicamente difficile. Diventa riferimento parallelo a 3D U-Net per i task volumetrici.
Varianti successive
Tra 2016 e inizio 2017 sono emerse numerose varianti architetturali:
- Attention U-Net — Oktay et al., gating attention per focalizzare su regioni rilevanti
- Dense U-Net — integrazione di blocchi DenseNet al posto dei blocchi convolutional standard
- Residual U-Net — integrazione di residual connections
- U-Net con encoder pre-addestrato — sostituzione del contracting path con un encoder ImageNet-pretrained (VGG, ResNet), per transfer learning
Ciascuna variante offre compromessi diversi tra accuratezza, numero di parametri, requisiti di memoria GPU.
U-Net come baseline
Nelle challenge di imaging del 2016-2017 U-Net è diventata la baseline di default. I metodi pubblicati sono tipicamente:
- Architettura U-Net (2D o 3D) come partenza
- Modifiche specifiche al task — funzione di loss, augmentation, pre/post-processing
- Ensemble di reti U-Net addestrate su fold diversi
Il vantaggio pratico di U-Net come baseline è la riproducibilità: è più semplice confrontare il contributo dei vari componenti metodologici avendo una base comune.
Applicazioni cliniche
Al 2017 U-Net ha generato applicazioni in praticamente tutti i domini dell’imaging medicale:
- Oncologia — segmentazione di tumori cerebrali (BRATS), polmone, fegato, mammella
- Cardiologia — segmentazione cavità cardiache (LV, RV), miocardio, ventricoli
- Neurologia — lesioni multiple sclerosi, microbleeds, atrofia corticale
- Urologia — prostata, rene
- Istopatologia — nuclei, ghiandole, vasi
- Oftalmologia — vasi retinici, disco ottico
- Dermatologia — lesioni cutanee
- Radioterapia — organs at risk per pianificazione
- Chirurgia — pianificazione pre-operatoria, modelli 3D paziente-specifici
Il confronto con i metodi pre-deep learning è tipicamente in favore di U-Net di 5-15 punti Dice, con dataset di dimensioni moderate (~100-1000 immagini annotate).
Limiti al 2017
Alcuni limiti riconosciuti:
- Memoria GPU — 3D U-Net su volumi interi ad alta risoluzione richiede GPU con molta memoria (16-24 GB); alternative sono patch-based training, con perdita di contesto
- Generalizzazione cross-sito — una rete addestrata su dati di un ospedale spesso ha prestazioni ridotte su dati di un altro ospedale (diverse caratteristiche di scanner, protocolli, popolazioni)
- Annotazione clinica — richiede ancora segmentazioni manuali di qualità radiologica
- Classe imbalanced — il tumore è una frazione piccola del volume; richiede funzioni di loss specifiche (Dice loss, focal loss)
- Interpretabilità — perché la rete predice una determinata segmentazione? Argomento aperto, importante per l’adozione clinica
Open source ecosystem
Al 2017, l’ecosistema open source intorno a U-Net include:
- Implementazione originale Freiburg (Caffe, GPL) — accessibile e mantenuta
- Dozzine di implementazioni PyTorch/TensorFlow/Keras su GitHub
- Dataset pubblici — BRATS (tumori cerebrali), LUNA (noduli polmonari), LiTS (lesioni fegato), ACDC (cardiaco), SegTHOR, e molti altri
- Challenges annuali MICCAI — benchmark di confronto su dataset standard
- Pubblicazioni su dataset medici — sempre più articoli rilasciano codice e modelli pretrained
Il pattern reproducibile (dataset + codice + modello) è diventato quasi condizione di pubblicazione nei venue più rigorosi di imaging medicale.
Cosa significa U-Net per la clinica
L’impatto di U-Net — e più in generale della generazione deep learning 2015-2017 — sulla pratica clinica è ancora in gestazione. La tecnologia è matura per ricerca; l’adozione routinaria in reparto richiede:
- Integrazione con PACS/RIS — pipeline che portano U-Net alle workstation radiologiche
- Certificazione come dispositivo medico — FDA 510(k), CE marking, lavoro che sta diventando più strutturato nei prossimi anni
- Validazione clinica multi-sito — dimostrazione di prestazioni su popolazioni diverse
- Workflow integration — l’AI deve accelerare il clinico, non sostituirlo; il design dell’interazione è cruciale
Al 2017 alcuni vendor commerciali (Siemens, Philips, GE) cominciano a incorporare componenti deep learning in prodotti certificati; startup specializzate (Arterys, Zebra Medical, Enlitic, Aidence, Viz.ai) emergono con offerte specifiche.
Prospettive
Per i prossimi anni si attende:
- Architetture più grandi e più accurate — con continuous improvements su architettura
- Modelli foundation multi-task — reti singole che fanno più task simultaneamente (segmentazione + classificazione + detection)
- Self-supervised pre-training su grandi dataset medici — riduzione della dipendenza da annotazioni
- Framework production-ready — attesa l’uscita di librerie specifiche (un progetto interessante annunciato è il consorzio NVIDIA+KCL per un framework medical imaging PyTorch-based; nome provvisorio in discussione)
- Regulatory progressi — FDA sta iniziando ad articolare un framework per AI as a Medical Device
U-Net è diventata, in meno di due anni, l’architettura di riferimento per la segmentazione biomedica — un esempio paradigmatico di come la condivisione di un paper + codice open source possa trasformare rapidamente un intero campo di ricerca applicata.
Riferimenti: Olaf Ronneberger, Philipp Fischer, Thomas Brox, “U-Net: Convolutional Networks for Biomedical Image Segmentation”, MICCAI 2015 (preprint ArXiv 1505.04597). Università di Freiburg. Çiçek et al., “3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation”, MICCAI 2016. Milletari, Navab, Ahmadi, “V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation”, 3DV 2016. Codice originale: lmb.informatik.uni-freiburg.de.