BioBERT, ClinicalBERT, PubMedBERT: i transformer pre-addestrati per il dominio biomedico

La generazione di modelli BERT pre-addestrati su corpora biomedici: BioBERT (Corea, 2019), ClinicalBERT (Harvard/NYU, 2019), PubMedBERT (Microsoft, 2020), BlueBERT (NIH, 2019), SciBERT (Allen AI), GatorTron (Florida, 2022) e l'ecosistema Hugging Face.

Digital HealthR&DOpen SourceAI BioBERTClinicalBERTPubMedBERTTransformerNLPBiomedicalHugging FaceOpen SourceDigital Health

Dopo BERT, l’adattamento al dominio medico

BERT (Bidirectional Encoder Representations from Transformers) — pubblicato nell’ottobre 2018 da Devlin et al. (Google) — ha ridefinito lo stato dell’arte in NLP. L’approccio: una rete Transformer pre-addestrata su grandi quantità di testo generico (Wikipedia + BookCorpus) con task auto-supervisionati (masked language modeling, next sentence prediction), poi fine-tuned su task downstream specifici (sentiment analysis, question answering, NER).

Per la comunità di NLP biomedico, BERT apre una possibilità concreta: pre-addestrare un BERT specifico su corpora biomedici, invece che su testo generico, per cattuare meglio il vocabolario tecnico, le abbreviazioni mediche, la sintassi delle note cliniche, i nomi di farmaci e malattie. Il fine-tuning successivo su task biomedici specifici — NER di entità cliniche, relazione extraction, classificazione di documenti — dovrebbe produrre risultati superiori.

Questa intuizione ha generato una famiglia di modelli, disponibili tutti come open source attraverso l’ecosistema Hugging Face e su repository degli autori.

BioBERT

BioBERTBidirectional Encoder Representations from Transformers for Biomedical Text Mining — è stato pubblicato dal team di Jinhyuk Lee, Wonjin Yoon, Sungdong Kim e altri autori di Korea University e Naver/Clova AI. Il preprint è del 2019, la pubblicazione completa in Bioinformatics nel 2020.

Il modello:

  • Parte da BERT-base (110 milioni di parametri, 12 layer, 768 hidden dim)
  • Continua il pre-training su PubMed abstracts (4.5 miliardi di parole) e PMC full-text articles (13.5 miliardi di parole)
  • Rilascia diverse varianti: BioBERT-Base v1.0, v1.1; una variante “cased” che preserva le maiuscole (rilevante per biomedicina dove “CD4” ≠ “cd4”)

Pre-addestramento con vocabolario BERT originale (problematico per termini biomedici rari spesso segmentati in troppi sub-token); nelle valutazioni comparative BioBERT migliora BERT standard di ~3-5 punti F1 su task biomedici di NER (malattie, chimici, geni), relation extraction, QA (BioASQ).

La licenza è Apache 2.0; i pesi sono distribuiti gratuitamente via GitHub e Hugging Face Hub.

ClinicalBERT

La distinzione tra biomedico (letteratura scientifica) e clinico (note di cartella, lettere di dimissione) è importante: il linguaggio clinico è più telegrafico, ricco di abbreviazioni locali, con strutture sintattiche distintive. Un BERT biomedico pretraineato su PubMed non è ottimale per testo clinico.

Due lavori intitolati ClinicalBERT sono pubblicati nel 2019:

  • Alsentzer et al. (2019) — Harvard Medical School e MIT — parte da BioBERT e continua il pre-training su MIMIC-III (dataset pubblico di note ICU del Beth Israel Deaconess Medical Center). Il modello risultante è particolarmente forte su task MIMIC (i2b2, n2c2 challenges)
  • Huang et al. (2019) — NYU — parte direttamente da BERT e pre-addestra su note cliniche, focalizzato su predizione di readmission ospedaliera

Entrambi distribuiti con licenza MIT e pubblicati su Hugging Face.

PubMedBERT

Una variante più recente, pubblicata da Microsoft Research con Yu Gu et al. (2020)“Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing” — cambia approccio strategico:

  • Pre-training from scratch su PubMed (non parte da BERT generico)
  • Vocabolario costruito direttamente su corpus PubMed (meglio adattato ai termini medici)
  • Sulla benchmark BLURB (Biomedical Language Understanding and Reasoning Benchmark, anch’essa introdotta dal paper) PubMedBERT supera BioBERT

PubMedBERT distribuito con licenza MIT; varianti base e large.

SciBERT, BlueBERT, SapBERT e altri

L’ecosistema si è diversificato rapidamente:

  • SciBERT (Beltagy et al. 2019, Allen AI) — BERT pre-addestrato su testi scientifici multidisciplinari (computer science + biomedicina)
  • BlueBERT (Peng et al. 2019, NIH) — BERT pre-addestrato su PubMed + MIMIC
  • SapBERT (Liu et al. 2020-2021, Cambridge) — specializzato per medical entity linking, ottimo per mappare menzioni a concetti UMLS
  • BioLinkBERT (Yasunaga et al. 2022, Stanford) — pre-training arricchito con link citationali
  • Med-BERT (Rasmy et al. 2021) — BERT addestrato su codici diagnosi ICD in cartelle cliniche (non testo libero, ma sequenze di codici)
  • RadBERT, PathologyBERT, BERTweet for Health — varianti specialistiche

GatorTron

Un salto di scala è arrivato con GatorTron, pubblicato a marzo 2022 dal gruppo di Yonghui Wu alla University of Florida in collaborazione con NVIDIA. GatorTron è stato pre-addestrato su 90 miliardi di parole di testo clinico (UF Health cartelle + MIMIC + letteratura), con varianti da 345M, 3.9B e 8.9B parametri. È significativamente più grande dei BERT tradizionali (~100-300M parametri).

GatorTron dimostra che la scala produce miglioramenti significativi in tutti i task di NLP clinico. I modelli fino a 3.9B sono stati rilasciati pubblicamente; la variante 8.9B ha distribuzione più controllata.

Hugging Face Transformers come infrastruttura

L’ecosistema di questi modelli è reso accessibile da Hugging Face Transformers — libreria Python open source lanciata nel 2018, oggi piattaforma standard per uso e distribuzione di modelli transformer. Con 3 righe di codice un ricercatore può caricare BioBERT, tokenizzare un testo clinico, estrarre embedding o fare inferenza:

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("dmis-lab/biobert-v1.1")
model = AutoModel.from_pretrained("dmis-lab/biobert-v1.1")

Il Hugging Face Hub ospita migliaia di modelli biomedici contribuiti dalla comunità, con card documentative, metrica di performance, esempi d’uso.

Task applicativi

I transformer biomedici hanno avanzato lo stato dell’arte su molti task rilevanti clinicamente:

  • Named Entity Recognition clinico — identificazione di farmaci, malattie, sintomi, procedure in note cliniche, superando cTAKES e strumenti rule-based su dataset di benchmark (i2b2, NCBI Disease, BC5CDR)
  • Relation Extraction — collegamento di entità (drug causes side-effect, gene regulates disease)
  • Clinical concept normalization — mapping di menzioni a codici UMLS/SNOMED CT
  • Document classification — diagnostic code prediction, ICU mortality prediction, re-admission prediction
  • Question Answering biomedico — BioASQ, PubMedQA
  • Text summarization di documenti clinici o abstract scientifici
  • Clinical note section segmentation — identificazione automatica delle sezioni (storia, esame obiettivo, piano)

Limiti

I modelli transformer biomedici al 2022 hanno limiti importanti:

  • Lingua — quasi tutti addestrati sull’inglese. Per italiano, tedesco, francese, spagnolo l’adozione richiede modelli specifici (emergono negli anni successivi; BioBIT italiano è un primo tentativo)
  • Lunghezza del contesto — limitata a 512 token nelle varianti base, troppo poco per un intero documento clinico. Estensioni come Longformer, BigBird parzialmente risolvono
  • Ragionamento limitato — i transformer “classici” producono embedding e classificazioni ma hanno ragionamento superficiale; task che richiedono catene inferenziali complesse sono sfidanti
  • Aggiornamento della conoscenza — un modello pre-addestrato nel 2019 non conosce nuove scoperte (p.es. farmaci autorizzati dopo il training); retrain periodico costoso
  • Bias — i modelli riflettono bias dei dataset di training (demografici, condizioni poco rappresentate)
  • Regolamentazione — adottare BioBERT in un prodotto clinico certificato richiede qualifica secondo IEC 62304, gestione del rischio, validazione clinica

Lo scenario italiano

Al 2022 l’uso di BioBERT/ClinicalBERT in Italia è prevalentemente ricerca e ricerca applicata in collaborazione con ospedali:

  • Estrazione di informazione da cartelle cliniche in progetti di research governance
  • Pipeline di de-identificazione di note cliniche
  • Supporto al coding (suggerimento di ICD-9-CM su lettere di dimissione)
  • Information retrieval su letteratura biomedica italiana

Il nodo aperto è la disponibilità di modelli italiani pre-addestrati su testo clinico italiano. BioBIT (RWTH Aachen, 2022) è un primo riferimento; progetti italiani autonomi stanno emergendo.

Prospettive

Al giugno 2022 si osserva:

  • Scaling up — modelli sempre più grandi (GatorTron 9B, e oltre) con performance in scalabilità
  • Multilingual medical transformers — emergeranno modelli cross-lingua utili per mercati non-inglese
  • Integration con knowledge bases — BERT + grafi di conoscenza (SNOMED, UMLS) per ragionamento strutturato
  • Emergenza dei large language model generativi — GPT-3 (2020), PaLM (2022), e successivi iniziano ad essere esplorati per uso medico. Cambierà il panorama nei prossimi due anni
  • HIPAA/GDPR compliance — pattern di deployment on-premise con modelli pre-addestrati per proteggere dati clinici
  • RAG (Retrieval-Augmented Generation) — combinare modelli pre-addestrati con retrieval di documenti esterni per rispondere a domande fattuali con fonti citate

BioBERT e la generazione di encoder-only transformer biomedici sono oggi baseline standard in NLP clinico. La prossima ondata — decoder-only e encoder-decoder LLM generativi — si prepara a ridefinire di nuovo le possibilità applicative in sanità.


Riferimenti: Lee, Yoon, Kim et al., “BioBERT: a pre-trained biomedical language representation model for biomedical text mining”, Bioinformatics (2020). Alsentzer et al., “Publicly Available Clinical BERT Embeddings” (2019). Huang et al., “ClinicalBERT” (2019). Gu et al., “Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing” (2020, PubMedBERT). Beltagy et al., SciBERT (2019). Peng et al., BlueBERT (2019). Yang et al., GatorTron (2022). Hugging Face Transformers. Licenze Apache 2.0 / MIT.

Vuoi supporto? Sei sotto attacco? Stato dei servizi
Vuoi supporto? Sei sotto attacco? Stato dei servizi