3. Choix techniques, nouveaux enjeux
La numérisation du patrimoine pose d'emblée des problèmes de formats ou de mode de stockage, image ou texte. Dans le mode image, une page est analysée en points (pixels) auxquels correspond un codage numérique permettant de reproduire fidèlement le document. Dans le mode texte, on code les caractères en attribuant à chacun une valeur numérique déterminée. La décision de privilégier la première technique ne répond pas seulement à un critère économique : du texte saisi coûte environ dix fois plus cher qu'une scannérisation.
Elle marque aussi le souci de conserver la structure physique et visuelle du document original, élément essentiel de la bibliographie matérielle et de l'histoire du livre. Enfin, elle va dans le sens d'une logique de conservation relativement traditionnelle de documents statiques.
Certes, le pari sur l'avenir, à la fin des années 1980, était de préjuger d'une double avancée technologique, aujourd'hui près d'être atteinte : d'une part, des progrès dans les techniques de reconnaissance optique de caractères (OCR) permettant de passer du mode image au mode texte, et dans les performances de formats comme PDF (portable document format, Acrobat d'Adobe) ; d'autre part, des possibilités accrues de diffuser en réseau ces « images » avec des temps d'accès raisonnables. L'évolution récente et rapide des formats de compression graphique et d'image – MPEG –, encapsulant des métadonnées complexes, va dans le sens de cette intégration des documents textuels scannérisés. Actuellement, si l'OCR reste parfois approximative, elle s'avère suffisante pour des moteurs de recherche statistique qui localiseront ensuite l'information dans le mode image ; de même, les réseaux connaissent des accroissements de débit. Mais l'évolution des bibliothèques se situe ailleurs. Il semble significatif, notamment pour ce qui concerne la seconde phase du National Digital Library Project américain, en 1998, que les projets numériques des grandes bibliot […]
… pour nos abonnés, l'article se prolonge sur 8 pages…



