Il problema del calcolo distribuito nella ricerca
La ricerca scientifica produce volumi di dati e richiede capacità di calcolo che superano le risorse di qualsiasi singola istituzione. Fisici, biologi e climatologi hanno bisogno di aggregare potenza computazionale distribuita su decine di centri di ricerca, ciascuno con il proprio hardware, il proprio sistema operativo e le proprie politiche di sicurezza. Globus Toolkit è il middleware open source che rende possibile questa aggregazione, fornendo un’infrastruttura software comune per il grid computing.
Sviluppato a partire dalla metà degli anni Novanta da Ian Foster e Carl Kesselman — gli stessi ricercatori che hanno coniato il concetto di grid computing — Globus Toolkit è oggi alla versione 4.x, basata su un’architettura a servizi web conforme allo standard WSRF (Web Services Resource Framework).
I componenti fondamentali
L’architettura di Globus Toolkit è modulare. Quattro componenti principali coprono le esigenze fondamentali del calcolo distribuito:
- GSI (Grid Security Infrastructure): gestisce l’autenticazione federata tramite certificati X.509 e proxy delegati. Un ricercatore si autentica una volta presso la propria istituzione e ottiene credenziali temporanee riconosciute da tutti i siti della griglia, senza dover mantenere account separati su ciascuno
- GRAM (Grid Resource Allocation and Management): permette la sottomissione remota di job su risorse computazionali eterogenee. GRAM traduce le richieste in comandi comprensibili dai job scheduler locali — PBS, Condor, LSF — nascondendo la complessità specifica di ciascun cluster
- GridFTP: un’estensione del protocollo FTP ottimizzata per il trasferimento affidabile di grandi volumi di dati su reti geografiche. Supporta trasferimenti paralleli su più stream TCP, ripresa automatica in caso di interruzione e autenticazione integrata con GSI
- MDS (Monitoring and Discovery System): un servizio di directory e monitoraggio che pubblica informazioni sulle risorse disponibili nella griglia — capacità computazionale, spazio di storage, stato dei servizi — permettendo ai client di scoprire dinamicamente dove eseguire i propri job
Grid computing e infrastrutture scientifiche
Progetti come EGEE (Enabling Grids for E-sciencE) e TeraGrid utilizzano Globus Toolkit come fondamento della propria infrastruttura. Il CERN, in preparazione all’avvio del Large Hadron Collider, sta costruendo la Worldwide LHC Computing Grid (WLCG) per distribuire l’analisi dei dati prodotti dagli esperimenti su centinaia di siti nel mondo.
Il modello del grid computing affronta un problema architetturale preciso: federare risorse eterogenee mantenendo l’autonomia amministrativa di ciascun sito. Non si tratta di costruire un unico supercomputer, ma di creare un’infrastruttura che permetta a istituzioni indipendenti di condividere risorse secondo politiche concordate. Globus Toolkit fornisce i protocolli e i servizi che rendono questa collaborazione tecnicamente possibile.
Link: globus.org
