AIHealth

Piattaforma clinica on-premise con LLM locali, RAG su dati FHIR/DICOM, supporto alla diagnosi, follow-up remoto. Architettura progettata per il percorso MDR.

Scopri AIHealth →

Digital Health

Sviluppo di software medicale conforme agli standard normativi CE e MDR. Sistemi di supporto alle decisioni cliniche, integrazione AI nei flussi di lavoro clinici.

Scopri →

Il problema: dati sanitari distribuiti e non condivisibili

L’addestramento di modelli di AI in medicina richiede grandi volumi di dati. Ma i dati sanitari sono distribuiti tra centri (ospedali, laboratori, reparti) e difficili da centralizzare per motivi tecnici, organizzativi, normativi (GDPR art. 9, HIPAA, normative nazionali sui dati di cura). Il paradosso: l’AI medica ha bisogno di dati multi-centrici; i sistemi sanitari non possono condividerli.

Una risposta a questo paradosso è il Federated Learning (FL) — termine coniato da H. Brendan McMahan et al. (Google, 2016-2017) nel paper “Communication-Efficient Learning of Deep Networks from Decentralized Data” (FedAvg, 2017). L’idea base: invece di portare i dati al modello, portare il modello ai dati.

Come funziona

Il workflow tipico:

Un server coordinatore distribuisce un modello iniziale a N client (ciascuno un centro sanitario con dati locali)
Ogni client esegue training locale per un numero di epoche sul proprio dataset
Ogni client invia al server i pesi aggiornati (non i dati)
Il server aggrega i pesi (media pesata, tipicamente FedAvg) per produrre un nuovo modello globale
Il processo si ripete per R round fino a convergenza

I dati individuali non lasciano mai il centro. Il server vede solo aggregati di pesi — che possono essere ulteriormente protetti con Secure Aggregation (crittografia) e Differential Privacy (rumore aggiunto).

L’articolo seminale in medicina

Rieke, Hancox, Li et al. (2020), pubblicato in npj Digital Medicine con il titolo “The future of digital health with federated learning”, è l’articolo di riferimento che stabilisce il FL come paradigma credibile per l’AI clinica multicentrica. Gli autori — Nicola Rieke (NVIDIA), Jonny Hancox (NVIDIA), Wenqi Li (NVIDIA), e collaboratori da KCL, Penn, UCLA — articolano use case e sfide.

Applicazioni tipiche:

Segmentazione di tumori cerebrali addestrata su volumi RM di 20 ospedali senza condividerli
Triage radiografico per COVID-19 con modelli addestrati su dataset di più nazioni
Rilevazione di fratture ossee addestrata su centinaia di ospedali
Analitica clinica su cartelle cliniche di più sistemi sanitari

Framework open source

L’ecosistema dei framework FL al settembre 2021:

Flower (flwr.org)

Sviluppato da Daniel J. Beutel, Taner Topal, Akhil Mathur, Nicholas Lane e altri al Cambridge University e collaboratori. Pubblicato come open source nel 2020 (arXiv preprint “Flower: A Friendly Federated Learning Research Framework”, Beutel et al. 2020). Licenza Apache 2.0. Caratteristiche:

Framework-agnostic — supporta PyTorch, TensorFlow, JAX, scikit-learn
Strategy pluggable — FedAvg di default, ma facilmente sostituibile con FedProx, FedOpt, custom
Linguaggi client: Python, Android (Kotlin), iOS (Swift)
Scalabilità da simulazioni a centinaia di client reali

FATE (fate.fedai.org)

Sviluppato da WeBank (Cina) a partire dal 2019. Uno dei primi framework FL production-grade. Licenza Apache 2.0. Caratteristiche:

Orientato alle pipeline industriali (FinTech, healthcare)
Supporta vertical FL (dati dello stesso paziente distribuiti tra istituti per tipologia — genomica in un centro, clinico in un altro) oltre al classico horizontal FL
Secure computation integrata
Installazione complessa ma feature-rich

PySyft (openmined.org)

Sviluppato dalla community OpenMined, attivo dal 2017. Licenza Apache 2.0. Caratteristiche:

Focus sulla privacy: differential privacy, secure multi-party computation (SMPC), homomorphic encryption
Tensori remoti — un pattern di programmazione che fa sembrare i tensori distribuiti come locali
PySyft 0.x maturo, v1.0+ in sviluppo

TensorFlow Federated (TFF)

Sviluppato da Google dal 2019. Licenza Apache 2.0. Parte dell’ecosistema TensorFlow. Limite: lega-dipendente da TF2 stack, meno popolare per medicina che usa prevalentemente PyTorch.

OpenFL (openfl.io)

Sviluppato da Intel e rilasciato nel marzo 2021. Licenza Apache 2.0. Pensato per contesti enterprise con supporto SGX. Usato nel progetto Federated Tumor Segmentation (FeTS) della University of Pennsylvania — una delle prime evaluation FL a scala di BraTS data.

NVIDIA Clara Train FL

Parte dello stack Clara (commerciale ma con componenti open source). Molto usato in sanità per deployment NVIDIA-based.

Primi casi medici su larga scala

Al 2021, alcuni progetti sanitari FL di rilievo:

EXAM (EMR CXR AI Model) — progetto NVIDIA con 20 ospedali di 5 continenti, febbraio-aprile 2021, per predizione di severità e mortalità COVID-19 da radiografia toracica + cartella. Pubblicato in Nature Medicine 2021, dimostra che FL produce modelli più generalizzabili di singoli centri
Federated Tumor Segmentation (FeTS) Challenge 2021 — prima challenge federata per segmentazione di tumori cerebrali, con OpenFL come infrastruttura, coordinata da University of Pennsylvania (Spyridon Bakas)
MELLODDY — consorzio EU IMI, drug discovery federata, 2019-2022, 10 società farmaceutiche senza condividere dati proprietari
ACR AI-LAB — American College of Radiology piattaforma FL per imaging diagnostico

Vantaggi e sfide

Vantaggi per la sanità

Compliance GDPR/HIPAA: dati non escono dal centro
Accesso a dati più grandi: modelli addestrati su 10-100x più dati di quanti un singolo centro potrebbe accedere
Generalizzazione: modelli che funzionano su popolazioni diverse
Minor bias dataset-specifico: la diversità multi-sito migliora la robustezza

Sfide tecniche

Non-IID data: i dati tra ospedali non sono indipendenti e identicamente distribuiti (scanner diversi, protocolli diversi, popolazioni diverse); convergenza di FedAvg può degradare
Ottimizzatori federati: FedProx, FedOpt, SCAFFOLD, FedNova affrontano il problema non-IID
Communication overhead: trasferire pesi di modelli grandi tra client e server costa banda
Privacy attacks: l’inversione dei gradienti può ricostruire dati di training; DP e SecAgg sono contromisure ma con trade-off di accuracy
Sicurezza bizantina: client malevoli possono avvelenare il training
Heterogeneity client: client con risorse computazionali diverse (ospedale grande vs. piccolo)

Sfide organizzative

Governance multi-parte: chi possiede il modello aggregato, chi decide la strategia, chi pubblica
Data harmonization preliminare: i dati devono essere omogenei in formato (FHIR, DICOM standardizzato, ontologie concettuali comuni)
Coordinamento: partire un progetto FL richiede allineamento legale, etico, tecnico tra decine di partner
Certificazione: un modello FL prodotto da N ospedali come dispositivo medico ha responsabilità regolatorie distribuite

Il rapporto tra FL e GDPR è articolato. FL è allineato con i principi del GDPR (minimizzazione, privacy by design) ma non è una tecnologia che elimina automaticamente gli obblighi:

I dati locali dei centri restano soggetti a GDPR
I pesi aggregati potrebbero contenere informazione residua sui dati (secondo alcuni attacchi noti); il loro trasferimento richiede valutazione
La DPIA (Data Protection Impact Assessment) è sempre necessaria
Servono accordi tra titolari (DPA) per il modello cooperativo

Il European Data Protection Board e il Garante italiano stanno producendo linee guida su FL — non ancora definitive al 2021.

Nel contesto italiano ed europeo

Al 2021 la partecipazione italiana a progetti FL è ancora sperimentale:

Alcuni IRCCS partecipano a consorzi EU IMI con componenti FL
Università e Politecnici italiani fanno ricerca su protocolli FL
Progetti EU — Horizon 2020 e Horizon Europe includono bandi su federated health data analytics
Il tema EHDS, in discussione a livello UE, include accenni a FL come possibile meccanismo di secondary use compliant

Prospettive

Le direzioni attese nei prossimi anni:

MONAI Federated — il consorzio MONAI sta discutendo l’integrazione FL in un sotto-progetto dedicato
Regolatori che accolgono FL — FDA ha già linee guida preliminari sull’uso di FL per modelli AI/ML; EU MDR dovrà articolare il tema
Standardizzazione dei protocolli di aggregazione — verso interoperabilità tra framework FL
Cross-device vs. cross-silo — la sanità è tipicamente cross-silo (pochi client, molti dati ciascuno); molti sviluppi recenti sono focalizzati qui
Fairness and bias auditing in FL — come assicurare che modelli FL non abbiano bias specifici di singoli siti
Synthetic data sharing come complemento — generare dati sintetici simili a quelli reali come alternativa/complemento al FL

Il FL al 2021 è nella fase “early adoption production” in sanità: i primi deployment reali producono risultati misurabili, gli strumenti open source sono maturi, ma l’adozione sistemica richiede ancora anni di infrastruttura organizzativa, regolatoria, culturale. La traiettoria è solida e il tema sarà centrale nel dibattito sui dati sanitari europei dei prossimi anni.

Riferimenti: McMahan et al., “Communication-Efficient Learning of Deep Networks from Decentralized Data” (2017). Rieke et al., “The future of digital health with federated learning”, npj Digital Medicine (2020). Flower (flower.dev). FATE (fate.fedai.org), WeBank. PySyft (OpenMined). TensorFlow Federated (Google). OpenFL (Intel, 2021). EXAM Study, Nature Medicine 2021. MELLODDY, IMI.

Azienda

Azioni

Links

Prodotti

Soluzioni

Settori

Federated Learning in sanità: Flower, FATE, OpenFL e i framework open source

AIHealth

Digital Health

Il problema: dati sanitari distribuiti e non condivisibili

Come funziona

L’articolo seminale in medicina

Framework open source

Flower (flwr.org)

FATE (fate.fedai.org)

PySyft (openmined.org)

TensorFlow Federated (TFF)

OpenFL (openfl.io)

NVIDIA Clara Train FL

Primi casi medici su larga scala

Vantaggi e sfide

Vantaggi per la sanità

Sfide tecniche

Sfide organizzative

Nel contesto italiano ed europeo

Prospettive

Federated Learning in sanità: Flower, FATE, OpenFL e i framework open source

AIHealth

Digital Health

Il problema: dati sanitari distribuiti e non condivisibili

Come funziona

L’articolo seminale in medicina

Framework open source

Flower (flwr.org)

FATE (fate.fedai.org)

PySyft (openmined.org)

TensorFlow Federated (TFF)

OpenFL (openfl.io)

NVIDIA Clara Train FL

Primi casi medici su larga scala

Vantaggi e sfide

Vantaggi per la sanità

Sfide tecniche

Sfide organizzative

GDPR e FL

Nel contesto italiano ed europeo

Prospettive