Preservare il passato con la tecnologia: i manoscritti di una biblioteca
La scansione dei manoscritti della Biblioteca Vaticana apre una riflessione sul ruolo dei formati di salvataggio che siano aperti, a contrasto con quanto è attualmente utilizzato nella maggior parte dei casi ma che non sembra poter essere garanzia per il futuro
di Paolo Corsini pubblicata il 15 Settembre 2012, alle 09:01 nel canale Scienza e tecnologiaStupisce scoprire che le grandi biblioteche internazionali, la Bilioteca Vaticana al primo posto, sono la seconda tipologia di enti per richiesta di potenza di elaborazione via sistemi di calcolo dopo gli istituti bancari. Del resto basti pensare ai dati contenuti nelle grandi biblioteche mondiali e al quantitativo di ricerche che vengono su questi fatte ogni giorno per poter quantomeno immaginare la mole di dati che sono memorizzati negli archivi di questi istituti.
Durante l'E4 HPC Workshop 2012, tenutosi in questi giorni a Bologna quale evento incentrato sulle tecnologie di calcolo parallelo e sulle loro differenti implementazioni in svariati ambiti, abbiamo raccolto alcuni interessanti dati sulla infrastruttura alla base del sistema di archiviazione e catalogazione della Biblioteca Vaticana, alle problematiche incontrate nel cercare di preservare in formato digitale tutti i contenuti cartacei presenti e nel dimensionare correttamente l'infrastruttura di calcolo necessaria a questo scopo.
La Biblioteca Apostolica Vaticana è dotata di circa 80.000 manoscritti, compresi nel periodo tra il 400 dopo Cristo e il tardo medioevo. Il piano di conversione in digitale di questi manoscritti, ciascuno indicativamente con 500 pagine in media, stima che i dati raccolti arriveranno ai 45 Petabytes totali, con un peso di 200 Mbytes per ognuna delle pagine convertite in digitale. E' evidente come archiviare dati di questo tipo, sia per tipologia che per quantità, richieda strutture di calcolo e di storage molto elevate.
Nella Biblioteca Apostolica Vaticana viene utilizzato, per l'archiviazione delle immagini dei documenti, il formato F.I.T.S. (Flexible Image Transport System), sviluppato originariamente dalla NASA negli anni '70 per la conservazione delle immagini lunari. Una scelta di questo tipo è dettata dalla necessità di mantenere nel corso del tempo i dati conservati in modo tale che siano accessibili anche dopo svariati anni.
Pensando alla scansione di documenti si può portare a ritenere che i vari standard attualmente presenti sul mercato possano essere più che adatti. L'utilizzo dello standard TIFF, quello più adottato nelle scansioni tradizionali, non è di certo la scelta ideale in quanto si tratta di un formato proprietario di Adobe e con alcune limitazioni in termini di dimensione massima delle immagini e della precisione. L'utilizzo di TIFF è attualmente gratuito ma in teoria non è detto che nei prossimi anni Adobe non possa scegliere di richiedere una anche seppur piccola royalty per il suo utilizzo: considerando la mole di documenti scansionati le ripercussioni economiche sarebbero ben gravi.
Da questo la scelta del formato F.I.T.S., presente sul mercato da lungo tempo e soprattutto soggetto ad un processo di revisione e aggiornamento costante nel corso degli anni. Trattandosi di uno standard aperto nato per esigenze dell'industria aerospaziale la Biblioteca Vaticana ritiene che questa scelta permetterà di avere compatibilità futura anche tra molti anni a venire, senza per questo trascurare i vantaggi qualitativi e di dettaglio delle informazioni messi a disposizione da F.I.T.S. rispetto al formato TIFF.
Un'analisi di questo tipo, partita dalla esigenza di preservare documenti cartacei e quindi quella che è la nostra storia del passato, passa velocemente a considerazioni di monopolio sugli standard per la scansione di immagini e sui formati finali con i quali i dati vengono archiviati. Considerazioni simili possono essere fatte per i documenti cartacei: la propensione attuale ad utilizzare il pdf come standard anche da un punto di vista legale si scontra con il dato di fatto che questo sia un formato estremamente diffuso, ma proprietario di una singola azienda: sempre l'americana Adobe.
11 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoPer i libri o le riviste scansionate è molto più adatto, soprattutto se c'è molto testo rispetto alle immagini, del PDF che peserebbero assurdamente per non dare niente di più (non parliamo del TIFF). Forse è un po' meno conosciuto, ma è molto più adeguato. C'è da dire che il PDF deve molto del suo successo al fatto che è nato per i file generati elettronicamente da stampare su più piattaforme e poi è stato molto spinto da Adobe per favorire i suoi prodotti a pagamento di modifica come altri loro formati pubblici che usano come "testa di ponte" per vendere i loro prodotti.
Per i libri o le riviste scansionate è molto più adatto, soprattutto se c'è molto testo rispetto alle immagini, del PDF che peserebbero assurdamente per non dare niente di più (non parliamo del TIFF). Forse è un po' meno conosciuto, ma è molto più adeguato. C'è da dire che il PDF deve molto del suo successo al fatto che è nato per i file generati elettronicamente da stampare su più piattaforme e poi è stato molto spinto da Adobe per favorire i suoi prodotti a pagamento di modifica come altri loro formati pubblici che usano come "testa di ponte" per vendere i loro prodotti.
Io invece non avevo mai sentito parlare di questo DJVU, sembra interessante e utile.
Forse è poco conosciuto effettivamente al pubblico ampio, ma se si cercano vecchie scansioni è di solito abbastanza facile trovarlo.. (e tra l'altro è supportato da tutti i visualizzatori/impaginatori almeno quelli liberi su linux, ovvio non da Acrobat :asd
Però è un peccato che non sia molto comune nelle pagine web visto che lì avrebbe la superiorità eccezionale rispetto al PDF di accelerare di molto la consultazione di pagine e lo scambio dei dati...
Nel caso di scansioni comunque anche il PDF è lossy (in genere sono praticamente JPEG incorporati come pagine), infatti resta migliore per documenti prodotti elettronicamente (cioè come testo+font), mentre è nel caso delle scansioni che è molto superiore la qualità di un DJVU e soprattutto il peso irrisorio.
Se devi archiviare una gran mole di dati come le immagini di un testo scansito, comunque non ti conviene certo farlo in TIFF per quanto non sia lossy, comunque oltre un certo dettaglio non ha più senso registrare informazioni inutili che aumentano solo la dimensione dei file in maniera spropositata.
Da quanto ho letto esiste un'implementazione libera di DjVU su Sourceforge, ma nasce ed esiste anche come software commerciale, e non essendo forse chiaro se in futuro possono nascere conflitti tra le porzioni free e quelle closed, agli occhi dei legali del Vaticano ha fatto la differenza indirizzandosi verso FITS, che nascendo in ambito governativo USA in quanto tale è sicuramente libero da copyright e royalty.
Tale ricchezza di dettagli non può venire compressa con perdita di qualità, anche perchè questa conservazione in forma elettronica deve essere in grado di riprodurre fedelmente l'originale in caso di deterioramento di quest'ultimo.
http://fits.gsfc.nasa.gov/fits_standard.html
ma mi pare che non sia aggiornato da parecchio tempo ormai...
In questo secondo caso, penso che la scelta del formato dipenda anche molto dalla "stabilità" nel futuro. Nel senso che se archivi qualcosa oggi devi essere certo di poterla aprire anche tra 50 anni (e non è cosa banale i formati cambiano ed evolvono e uno non può riconvertire ogni volta da capo), probabilmente sotto questo aspetto un formato usato dalla NASA dà ovviamente più garanzie.
Non è così semplice e lineare, leggendo la versione inglese della pagina su Wikipedia si capisce meglio: esiste l'implementazione free, ma sul codice originale ci sono copyright, una situazione simile a quella dell'MP3.
Il codice originale ha dei copyright, ma esiste l'implementazione libera di LAME.
Sinceramente pensando anche a esempi passati su queste questioni direi che hanno fatto benissimo ad andare con i piedi di piombo e scegliere un formato sul quale sicuramente non sorgeranno dispute, patent trolling o reclami vari...
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".