Preservare il passato con la tecnologia: i manoscritti di una biblioteca

Preservare il passato con la tecnologia: i manoscritti di una biblioteca

La scansione dei manoscritti della Biblioteca Vaticana apre una riflessione sul ruolo dei formati di salvataggio che siano aperti, a contrasto con quanto è attualmente utilizzato nella maggior parte dei casi ma che non sembra poter essere garanzia per il futuro

di pubblicata il , alle 09:01 nel canale Scienza e tecnologia
 

Stupisce scoprire che le grandi biblioteche internazionali, la Bilioteca Vaticana al primo posto, sono la seconda tipologia di enti per richiesta di potenza di elaborazione via sistemi di calcolo dopo gli istituti bancari. Del resto basti pensare ai dati contenuti nelle grandi biblioteche mondiali e al quantitativo di ricerche che vengono su questi fatte ogni giorno per poter quantomeno immaginare la mole di dati che sono memorizzati negli archivi di questi istituti.

Durante l'E4 HPC Workshop 2012, tenutosi in questi giorni a Bologna quale evento incentrato sulle tecnologie di calcolo parallelo e sulle loro differenti implementazioni in svariati ambiti, abbiamo raccolto alcuni interessanti dati sulla infrastruttura alla base del sistema di archiviazione e catalogazione della Biblioteca Vaticana, alle problematiche incontrate nel cercare di preservare in formato digitale tutti i contenuti cartacei presenti e nel dimensionare correttamente l'infrastruttura di calcolo necessaria a questo scopo.

La Biblioteca Apostolica Vaticana è dotata di circa 80.000 manoscritti, compresi nel periodo tra il 400 dopo Cristo e il tardo medioevo. Il piano  di conversione in digitale di questi manoscritti, ciascuno indicativamente con 500 pagine in media, stima che i dati raccolti arriveranno ai 45 Petabytes totali, con un peso di 200 Mbytes per ognuna delle pagine convertite in digitale. E' evidente come archiviare dati di questo tipo, sia per tipologia che per quantità, richieda strutture di calcolo e di storage molto elevate.

Nella Biblioteca Apostolica Vaticana viene utilizzato, per l'archiviazione delle immagini dei documenti, il formato F.I.T.S. (Flexible Image Transport System), sviluppato originariamente dalla NASA negli anni '70 per la conservazione delle immagini lunari. Una scelta di questo tipo è dettata dalla necessità di mantenere nel corso del tempo i dati conservati in modo tale che siano accessibili anche dopo svariati anni.

bv.jpg (155045 bytes)

Pensando alla scansione di documenti si può portare a ritenere che i vari standard attualmente presenti sul mercato possano essere più che adatti. L'utilizzo dello standard TIFF, quello più adottato nelle scansioni tradizionali, non è di certo la scelta ideale in quanto si tratta di un formato proprietario di Adobe e con alcune limitazioni in termini di dimensione massima delle immagini e della precisione. L'utilizzo di TIFF è attualmente gratuito ma in teoria non è detto che nei prossimi anni Adobe non possa scegliere di richiedere una anche seppur piccola royalty per il suo utilizzo: considerando la mole di documenti scansionati le ripercussioni economiche sarebbero ben gravi.

Da questo la scelta del formato F.I.T.S., presente sul mercato da lungo tempo e soprattutto soggetto ad un processo di revisione e aggiornamento costante nel corso degli anni. Trattandosi di uno standard aperto nato per esigenze dell'industria aerospaziale la Biblioteca Vaticana ritiene che questa scelta permetterà di avere compatibilità futura anche tra molti anni a venire, senza per questo trascurare i vantaggi qualitativi e di dettaglio delle informazioni messi a disposizione da F.I.T.S. rispetto al formato TIFF.

Un'analisi di questo tipo, partita dalla esigenza di preservare documenti cartacei e quindi quella che è la nostra storia del passato, passa velocemente a considerazioni di monopolio sugli standard per la scansione di immagini e sui formati finali con i quali i dati vengono archiviati. Considerazioni simili possono essere fatte per i documenti cartacei: la propensione attuale ad utilizzare il pdf come standard anche da un punto di vista legale si scontra con il dato di fatto che questo sia un formato estremamente diffuso, ma proprietario di una singola azienda: sempre l'americana Adobe.

11 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
Chelidon15 Settembre 2012, 10:53 #1
Non conoscevo questo formato, immagino sarà molto particolare e offrirà certe garanzie, ma senza arrivare al PDF o al TIFF c'è da parecchio tempo un formato molto più intelligente come strategia di compressione (divide lo sfondo dal testo e permette di arrivare a qualche decina di kb per pagina con la stessa qualità del PDF) che è il DJVU.

Per i libri o le riviste scansionate è molto più adatto, soprattutto se c'è molto testo rispetto alle immagini, del PDF che peserebbero assurdamente per non dare niente di più (non parliamo del TIFF). Forse è un po' meno conosciuto, ma è molto più adeguato. C'è da dire che il PDF deve molto del suo successo al fatto che è nato per i file generati elettronicamente da stampare su più piattaforme e poi è stato molto spinto da Adobe per favorire i suoi prodotti a pagamento di modifica come altri loro formati pubblici che usano come "testa di ponte" per vendere i loro prodotti.
total999915 Settembre 2012, 13:17 #2
Originariamente inviato da: Chelidon
Non conoscevo questo formato, immagino sarà molto particolare e offrirà certe garanzie, ma senza arrivare al PDF o al TIFF c'è da parecchio tempo un formato molto più intelligente come strategia di compressione (divide lo sfondo dal testo e permette di arrivare a qualche decina di kb per pagina con la stessa qualità del PDF) che è il DJVU.

Per i libri o le riviste scansionate è molto più adatto, soprattutto se c'è molto testo rispetto alle immagini, del PDF che peserebbero assurdamente per non dare niente di più (non parliamo del TIFF). Forse è un po' meno conosciuto, ma è molto più adeguato. C'è da dire che il PDF deve molto del suo successo al fatto che è nato per i file generati elettronicamente da stampare su più piattaforme e poi è stato molto spinto da Adobe per favorire i suoi prodotti a pagamento di modifica come altri loro formati pubblici che usano come "testa di ponte" per vendere i loro prodotti.

Io invece non avevo mai sentito parlare di questo DJVU, sembra interessante e utile.
Chelidon15 Settembre 2012, 13:32 #3
Molto utile il fatto che ci siano i programmi per produrre da sé i DJVU a partire dalle scansioni fra l'altro..

Forse è poco conosciuto effettivamente al pubblico ampio, ma se si cercano vecchie scansioni è di solito abbastanza facile trovarlo.. (e tra l'altro è supportato da tutti i visualizzatori/impaginatori almeno quelli liberi su linux, ovvio non da Acrobat :asd
Però è un peccato che non sia molto comune nelle pagine web visto che lì avrebbe la superiorità eccezionale rispetto al PDF di accelerare di molto la consultazione di pagine e lo scambio dei dati...
Rubberick15 Settembre 2012, 16:03 #4
si ma il DjVu è lossy? in tal caso certamente non è paragonabile ai formati lossless
Chelidon15 Settembre 2012, 20:51 #5
Quali formati il TIFF? Ovvio che DJVU è lossy, non potrebbe essere così fruibile altrimenti (una pagina poche decine di kb) ma è fatto in modo che il layer del testo (o delle figure) è compresso diversamente dallo sfondo, che non contiene solitamente informazioni importanti, ma solo polvere e difetti delle pagine che possono perdersi e non necessitano di una compressione di qualità.

Nel caso di scansioni comunque anche il PDF è lossy (in genere sono praticamente JPEG incorporati come pagine), infatti resta migliore per documenti prodotti elettronicamente (cioè come testo+font), mentre è nel caso delle scansioni che è molto superiore la qualità di un DJVU e soprattutto il peso irrisorio.

Se devi archiviare una gran mole di dati come le immagini di un testo scansito, comunque non ti conviene certo farlo in TIFF per quanto non sia lossy, comunque oltre un certo dettaglio non ha più senso registrare informazioni inutili che aumentano solo la dimensione dei file in maniera spropositata.
eeetc16 Settembre 2012, 15:28 #6
Originariamente inviato da: Chelidon
Non conoscevo questo formato, immagino sarà molto particolare e offrirà certe garanzie, ma senza arrivare al PDF o al TIFF c'è da parecchio tempo un formato molto più intelligente come strategia di compressione (divide lo sfondo dal testo e permette di arrivare a qualche decina di kb per pagina con la stessa qualità del PDF) che è il DJVU.

Da quanto ho letto esiste un'implementazione libera di DjVU su Sourceforge, ma nasce ed esiste anche come software commerciale, e non essendo forse chiaro se in futuro possono nascere conflitti tra le porzioni free e quelle closed, agli occhi dei legali del Vaticano ha fatto la differenza indirizzandosi verso FITS, che nascendo in ambito governativo USA in quanto tale è sicuramente libero da copyright e royalty.
Elettrocinghia17 Settembre 2012, 10:12 #7
Le scansioni di questo tipo non possono essere lossy, perchè lo sfondo è tutt'altro che povero di informazioni: la maggior parte dei manoscritti sono miniati e ricchissimi di informazioni: sono dei veri e propri capolavori e l'Italia è da sempre maestra in queste cose.
Tale ricchezza di dettagli non può venire compressa con perdita di qualità, anche perchè questa conservazione in forma elettronica deve essere in grado di riprodurre fedelmente l'originale in caso di deterioramento di quest'ultimo.
Gannjunior17 Settembre 2012, 18:17 #8
Ho cercato info sul FITS

http://fits.gsfc.nasa.gov/fits_standard.html

ma mi pare che non sia aggiornato da parecchio tempo ormai...
Chelidon17 Settembre 2012, 22:45 #9
La qualità alta la puoi ottenere anche con la compressione del DJVU usando probabilmente dei profili diversi, certo è nato per rendere fruibili testi scansiti più che per l'archiviazione a lungo termine.

In questo secondo caso, penso che la scelta del formato dipenda anche molto dalla "stabilità" nel futuro. Nel senso che se archivi qualcosa oggi devi essere certo di poterla aprire anche tra 50 anni (e non è cosa banale i formati cambiano ed evolvono e uno non può riconvertire ogni volta da capo), probabilmente sotto questo aspetto un formato usato dalla NASA dà ovviamente più garanzie.

Originariamente inviato da: eeetc
Da quanto ho letto esiste un'implementazione libera di DjVU su Sourceforge, ma nasce ed esiste anche come software commerciale
Non è che esiste da quanto hai letto, esistono e funzionano sia per leggere che per esportare nel formato soluzioni open-source, così come esistono anche i programmi commerciali che ovviamente permettono più funzioni e possibilità d'azione. Ciò non toglie che questo c'entra poco col fatto che il formato sia aperto e quindi quando hai il tuo file non devi più rendere conto a nessuno.
eeetc18 Settembre 2012, 21:06 #10
Originariamente inviato da: Chelidon
Non è che esiste da quanto hai letto, esistono e funzionano sia per leggere che per esportare nel formato soluzioni open-source, così come esistono anche i programmi commerciali che ovviamente permettono più funzioni e possibilità d'azione. Ciò non toglie che questo c'entra poco col fatto che il formato sia aperto e quindi quando hai il tuo file non devi più rendere conto a nessuno.

Non è così semplice e lineare, leggendo la versione inglese della pagina su Wikipedia si capisce meglio: esiste l'implementazione free, ma sul codice originale ci sono copyright, una situazione simile a quella dell'MP3.
Il codice originale ha dei copyright, ma esiste l'implementazione libera di LAME.
Sinceramente pensando anche a esempi passati su queste questioni direi che hanno fatto benissimo ad andare con i piedi di piombo e scegliere un formato sul quale sicuramente non sorgeranno dispute, patent trolling o reclami vari...

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^