Gestione dati e storage

L’archiviazione di grandi quantità di dati costituisce una delle sfide principali del calcolo scientifico su larga scala. Performance e affidabilità dei sistemi di archiviazione devono necessariamente migliorare all’aumentare del volume di dati e della potenza di calcolo.

Attualmente, la quantità di dati archiviati e processati al CNAF ammonta a decine di PetaByte, ed è previsto che raddoppi nei prossimi 5 anni.

L’infrastruttura di Data Storage al CNAF si basa su standard industriali sia per l’interconnessione fisica (Storage Area Network con protocollo Fiber Channel) che per l’accesso ai dati, utilizzando file system parallelo ad alte prestazioni (tipicamente un filesystem per ogni esperimento maggiore). Questo approccio ha permesso l’implementazione di un sistema di accesso ai dati a prestazioni elevate completamente ridondante dal punto di vista dell’hardware.

Per l’archiviazione di lungo periodo vengono impiegati principalmente nastri magnetici. Per accedere ai file su nastro, sono impiegati dei bracci robotici che individuano i nastri giusti e li caricano sui drive a nastro. Il data center conserva più di 50 milioni di file appartenenti agli esperimenti.

Lo spazio disco e lo spazio nastro sono strutturati entrambi come un Hierarchical Mass Storage system e gestiti con GEMSS (Grid Enable Mass Storage System), un’integrazione del File Stystem Parallelo IBM (GPFS) e del Tivoli Storage Manager IBM (TSM). Per archiviare e recuperare i dati è utilizzata un’infrastruttura relazionale con database Oracle.

I servizi di archiviazione su disco e su nastro, e quelli di trasferimento dei dati, sono gestiti dal gruppo di Data storage del data center Tier-1.