AIHealth

Piattaforma clinica on-premise con LLM locali, RAG su dati FHIR/DICOM, supporto alla diagnosi, follow-up remoto. Architettura progettata per il percorso MDR.

Scopri AIHealth →

Digital Health

Sviluppo di software medicale conforme agli standard normativi CE e MDR. Sistemi di supporto alle decisioni cliniche, integrazione AI nei flussi di lavoro clinici.

Scopri →

Segmentare è diverso da classificare

Le prime applicazioni mediche del deep learning — documentate in letteratura 2013-2015 — si sono concentrate principalmente sulla classificazione: data un’immagine (una mammografia, una retina, un’istologia), restituire una predizione categoriale (benigno/maligno, retinopatia/normale, sottotipo tumorale). I modelli utilizzati erano tipicamente AlexNet, GoogLeNet, VGG, addestrati originariamente su ImageNet e fine-tuned con transfer learning.

Un altro task — centrale nell’imaging medicale e più difficile — è la segmentazione: data un’immagine, produrre una mappa pixel-per-pixel che assegna a ciascun pixel una classe (tumore/non tumore, organo/sfondo, tipo di tessuto). La segmentazione è la base di molte misurazioni cliniche: volumetria tumorale, pianificazione di radioterapia, analisi di lesioni, quantificazione di strutture anatomiche.

Le architetture CNN usate per classificazione non si adattano direttamente a segmentazione: l’operazione di pooling aggressivo perde informazione spaziale fine, che è proprio quella necessaria per l’output pixel-level. I primi tentativi usavano approcci patch-based — scorrere una finestra sull’immagine, classificare il pixel centrale — lenti e con discontinuità ai bordi.

Nel maggio 2015, un gruppo dell’Università di Freiburg guidato da Thomas Brox ha pubblicato una soluzione elegante: U-Net.

L’architettura

U-Net — descritta nel paper “U-Net: Convolutional Networks for Biomedical Image Segmentation” di Olaf Ronneberger, Philipp Fischer e Thomas Brox, presentato a MICCAI 2015 (preprint ArXiv maggio 2015) — è una rete completamente convoluzionale (fully convolutional network) con una forma caratteristica a U.

La struttura:

Contracting path (parte sinistra della U) — classica catena di conv → ReLU → conv → ReLU → max pool che riduce progressivamente la risoluzione spaziale e aumenta il numero di canali. Estrae feature gerarchiche di contesto crescente
Expanding path (parte destra della U) — catena simmetrica di upconv → conv → ReLU → conv → ReLU che ricostruisce la risoluzione spaziale riducendo i canali. Produce la mappa di segmentazione
Skip connections — le feature map del contracting path sono concatenate alle corrispondenti feature map dell’expanding path. Portano l’informazione a alta risoluzione direttamente ai layer di output, preservando i dettagli spaziali fini

Il risultato è un’architettura che simultaneamente vede il contesto globale (attraverso il percorso contracting) e preserva i dettagli locali (attraverso le skip connection). Il comportamento empirico eccelle specificamente sulle segmentazioni mediche, dove entrambi gli aspetti sono critici.

I risultati originali

Il paper originale documenta due esperimenti:

ISBI 2012 EM segmentation challenge — segmentazione di neuroni in microscopia elettronica. U-Net vince
ISBI 2015 cell tracking challenge — tracking di cellule in microscopia ottica time-lapse. U-Net vince entrambe le categorie (DIC-HeLa, PhC-U373)

Oltre ai risultati vincenti, il paper nota che U-Net funziona con pochi dati di training: sulla cell tracking challenge, le prestazioni sono ottenute con dataset di poche decine di immagini annotate, grazie all’uso massivo di data augmentation elastica (deformazioni elastiche delle immagini di training).

Per il mondo medico, la combinazione di pochi dati annotati (realtà comune) e prestazioni superiori è rivoluzionaria.

L’implementazione originale

La pubblicazione originale è accompagnata da codice Caffe pubblico (gitlab dell’Università di Freiburg), con modelli addestrati, script di training, documentazione. La disponibilità immediata del codice — sotto licenza GNU GPL — è cruciale: ogni gruppo di ricerca può riprodurre i risultati e adattare l’architettura al proprio caso.

La diffusione 2015-2017

Nei 18 mesi successivi alla pubblicazione, U-Net si diffonde rapidamente:

Portabilità cross-framework — la semplicità dell’architettura consente ri-implementazioni rapide in TensorFlow (rilasciato novembre 2015), Keras, PyTorch (rilasciato gennaio 2017). GitHub al 2017 conta decine di implementazioni pubbliche di U-Net
Adozione nelle challenge MICCAI — tra il 2015 e il 2017, U-Net o sue varianti vincono o arrivano tra i top in molte challenge di segmentazione (tumori cerebrali BRATS, lesioni multiple sclerosi, polmone, prostata, colon, occhio, istologia)
Citazioni — il paper U-Net è tra i più citati in medical imaging recente (più di 2000 citazioni al 2017)

Estensioni: 3D U-Net

Molte immagini mediche sono tridimensionali — TC, RM sono volumi, non immagini singole. U-Net originale è 2D; si applica slice-by-slice trascurando il contesto inter-slice. Una naturale estensione è passare a convoluzioni 3D.

Özgün Çiçek et al. (2016), stesso gruppo Freiburg, pubblicano 3D U-Net: “3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation”, MICCAI 2016. La rete usa convoluzioni 3D in tutto il contracting/expanding path, trattando il volume come input tridimensionale. Un contributo chiave del paper: la capacità di addestrare con annotazioni sparse (singole slice annotate per volume) invece che annotazioni complete — riducendo drasticamente il costo di annotazione clinica.

V-Net

Un’altra estensione volumetrica è V-Net — “V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation” di Fausto Milletari, Nassir Navab, Seyed-Ahmad Ahmadi, presentato a 3DV 2016. V-Net introduce:

Residual connections nei blocchi (inspirate dalle ResNet di He et al. 2015)
Dice loss function — invece di cross-entropy, utilizza direttamente il coefficiente di Dice come loss. Molto efficace per task con forte squilibrio di classi (tipico in medicina: il tumore è spesso il 1-5% dei voxel)

V-Net è dimostrata su segmentazione della prostata in RM, un task tipicamente difficile. Diventa riferimento parallelo a 3D U-Net per i task volumetrici.

Varianti successive

Tra 2016 e inizio 2017 sono emerse numerose varianti architetturali:

Attention U-Net — Oktay et al., gating attention per focalizzare su regioni rilevanti
Dense U-Net — integrazione di blocchi DenseNet al posto dei blocchi convolutional standard
Residual U-Net — integrazione di residual connections
U-Net con encoder pre-addestrato — sostituzione del contracting path con un encoder ImageNet-pretrained (VGG, ResNet), per transfer learning

Ciascuna variante offre compromessi diversi tra accuratezza, numero di parametri, requisiti di memoria GPU.

U-Net come baseline

Nelle challenge di imaging del 2016-2017 U-Net è diventata la baseline di default. I metodi pubblicati sono tipicamente:

Architettura U-Net (2D o 3D) come partenza
Modifiche specifiche al task — funzione di loss, augmentation, pre/post-processing
Ensemble di reti U-Net addestrate su fold diversi

Il vantaggio pratico di U-Net come baseline è la riproducibilità: è più semplice confrontare il contributo dei vari componenti metodologici avendo una base comune.

Applicazioni cliniche

Al 2017 U-Net ha generato applicazioni in praticamente tutti i domini dell’imaging medicale:

Oncologia — segmentazione di tumori cerebrali (BRATS), polmone, fegato, mammella
Cardiologia — segmentazione cavità cardiache (LV, RV), miocardio, ventricoli
Neurologia — lesioni multiple sclerosi, microbleeds, atrofia corticale
Urologia — prostata, rene
Istopatologia — nuclei, ghiandole, vasi
Oftalmologia — vasi retinici, disco ottico
Dermatologia — lesioni cutanee
Radioterapia — organs at risk per pianificazione
Chirurgia — pianificazione pre-operatoria, modelli 3D paziente-specifici

Il confronto con i metodi pre-deep learning è tipicamente in favore di U-Net di 5-15 punti Dice, con dataset di dimensioni moderate (~100-1000 immagini annotate).

Limiti al 2017

Alcuni limiti riconosciuti:

Memoria GPU — 3D U-Net su volumi interi ad alta risoluzione richiede GPU con molta memoria (16-24 GB); alternative sono patch-based training, con perdita di contesto
Generalizzazione cross-sito — una rete addestrata su dati di un ospedale spesso ha prestazioni ridotte su dati di un altro ospedale (diverse caratteristiche di scanner, protocolli, popolazioni)
Annotazione clinica — richiede ancora segmentazioni manuali di qualità radiologica
Classe imbalanced — il tumore è una frazione piccola del volume; richiede funzioni di loss specifiche (Dice loss, focal loss)
Interpretabilità — perché la rete predice una determinata segmentazione? Argomento aperto, importante per l’adozione clinica

Open source ecosystem

Al 2017, l’ecosistema open source intorno a U-Net include:

Implementazione originale Freiburg (Caffe, GPL) — accessibile e mantenuta
Dozzine di implementazioni PyTorch/TensorFlow/Keras su GitHub
Dataset pubblici — BRATS (tumori cerebrali), LUNA (noduli polmonari), LiTS (lesioni fegato), ACDC (cardiaco), SegTHOR, e molti altri
Challenges annuali MICCAI — benchmark di confronto su dataset standard
Pubblicazioni su dataset medici — sempre più articoli rilasciano codice e modelli pretrained

Il pattern reproducibile (dataset + codice + modello) è diventato quasi condizione di pubblicazione nei venue più rigorosi di imaging medicale.

Cosa significa U-Net per la clinica

L’impatto di U-Net — e più in generale della generazione deep learning 2015-2017 — sulla pratica clinica è ancora in gestazione. La tecnologia è matura per ricerca; l’adozione routinaria in reparto richiede:

Integrazione con PACS/RIS — pipeline che portano U-Net alle workstation radiologiche
Certificazione come dispositivo medico — FDA 510(k), CE marking, lavoro che sta diventando più strutturato nei prossimi anni
Validazione clinica multi-sito — dimostrazione di prestazioni su popolazioni diverse
Workflow integration — l’AI deve accelerare il clinico, non sostituirlo; il design dell’interazione è cruciale

Al 2017 alcuni vendor commerciali (Siemens, Philips, GE) cominciano a incorporare componenti deep learning in prodotti certificati; startup specializzate (Arterys, Zebra Medical, Enlitic, Aidence, Viz.ai) emergono con offerte specifiche.

Prospettive

Per i prossimi anni si attende:

Architetture più grandi e più accurate — con continuous improvements su architettura
Modelli foundation multi-task — reti singole che fanno più task simultaneamente (segmentazione + classificazione + detection)
Self-supervised pre-training su grandi dataset medici — riduzione della dipendenza da annotazioni
Framework production-ready — attesa l’uscita di librerie specifiche (un progetto interessante annunciato è il consorzio NVIDIA+KCL per un framework medical imaging PyTorch-based; nome provvisorio in discussione)
Regulatory progressi — FDA sta iniziando ad articolare un framework per AI as a Medical Device

U-Net è diventata, in meno di due anni, l’architettura di riferimento per la segmentazione biomedica — un esempio paradigmatico di come la condivisione di un paper + codice open source possa trasformare rapidamente un intero campo di ricerca applicata.

Riferimenti: Olaf Ronneberger, Philipp Fischer, Thomas Brox, “U-Net: Convolutional Networks for Biomedical Image Segmentation”, MICCAI 2015 (preprint ArXiv 1505.04597). Università di Freiburg. Çiçek et al., “3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation”, MICCAI 2016. Milletari, Navab, Ahmadi, “V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation”, 3DV 2016. Codice originale: lmb.informatik.uni-freiburg.de.

Azienda

Azioni

Links

Prodotti

Soluzioni

Settori

U-Net: l'architettura open source che ha ridefinito la segmentazione biomedica