Aller au contenu principal

Préservation numérique

Qu'est-ce qu'un format?

Les formats de fichiers numériques sont conçus selon des principes structurels et organisationnels prédéfinis. Ces principes sont généralement listés dans un document de spécifications. Ces spécifications fournissent les détails sur les subdivisions, l'encodage, les séquences, les relations internes qui permettent de construire et de valider un format et permettent à des logiciels de décoder et d'ouvrir ces fichiers. Une spécification de format indique les frontières entre les séquences de bits qui représentent un caractère ASCII, une instruction-machine, une sélection de couleur ou autre.

 

Prenons l'exemple du format d'image PNG :

Comment choisir un format?

Pour espérer qu'un fichier reste accessible longtemps, voici certains critères à considérer lors du choix :

  • L'ouverture
  • La propriété
  • L'utilisation
  • La complexité
  • La rétrocompatibilité
  • L'encodage
  • Les dépendances
  • Les métadonnées
  • L'évolution
  • Les barrières

Assessing the Durability of Formats in a Digital Preservation Environment

Article d'Andreas Stanescu paru dans D-Lib Magazine (novembre 2004) qui propose une méthode pour mesurer la durabilité des formats numériques.

Evaluating File Formats for Long-term Preservation

Article de Judith Rog et Caroline van Wijk sur une méthode développée à la Bibliothèque nationale des Pays-Bas pour déterminer le niveau de risque que pose un format de fichier numérique (2007).

Plus d'informations sur les critères

Un format ouvert est préférable à un format fermé. Puisque les spécifications techniques du format sont publiques, les informations qui nous permettent de comprendre son fonctionnement et sa structure sont accessibles.

Exemples de formats ouverts : fichiers Office avec x (xlsx, docx, etc.), pdf, txt, jpeg, png, csv.

Fait intéressant : certaines extensions cachent parfois des fichiers au format ouvert. Par exemple, un fichier de script peut avoir des extensions comme *.html, *.xml, *.sc, mais il s’agit en réalité de formats plein texte.

Fait intéressant : certains formats ouverts sont devenus au fil du temps des normes. Par exemple, PDF et PDF/a sont des normes ISO.

Un format propriétaire appartient à une personne morale. Il peut être ouvert ou non. Son évolution est contrôlée par son propriétaire. Ces formats sont généralement rattachés à des logiciels particuliers. Lorsque les formats sont non propriétaires, leur évolution est contrôlée par une communauté d’utilisateurs et ils sont en grande majorité ouverts.

Exemples de format non propriétaires : mkv, txt, xml, csv, png

Exemples de formats propriétaires, mais ouverts : fichiers Office avec x, PDF, rar

Exemple de format propriétaire : AutoCAD, psd, wma

Si uniquement une dizaine de personnes utilisent un format, même si celui-ci est ouvert et non-propriétaire, il va disparaître. À l’opposé, un format propriétaire extrêmement populaire est très peu à risque de s’éteindre dans les prochaines années.

Si un format propriétaire fermé est adopté comme standard par une bibliothèque, un centre d’archives ou une communauté de recherche, il est fort possible que le format soit pérenne grâce à sa popularité. Toutefois, son évolution doit être surveillée de près.

Le format doit offrir de bonnes capacités, mais éviter d’être trop complexe sinon il sera difficile à préserver dans le temps avec toutes ses fonctionnalités. La complexité d’un format peut se définir par sa lisibilité par les humain, sa compression et la variété de ses fonctionnalités. Plus il faut déployer d’efforts pour déchiffrer un format, plus il y a de chance qu’il ne soit pas parfaitement compris.

Le format est-il reconnu pour sa rétrocompatibilité? Lorsqu’une nouvelle version d’un logiciel est produite, à quel point est-ce possible d’ouvrir les formats créés avec les anciennes versions du logiciel? Les générations d’un même format sont-elles très différentes entre elles?

Fait intéressant : saviez-vous qu’Adobe assure la rétrocompatibilité des formats PDF jusqu’à la version 1.3 (sortie en 1999) uniquement?

Dans un environnement occidental, le format utilisera probablement un encodage standard de type ASCII ou Unicode.  Si vous utilisez des symboles ou des langues non-latine, l’encodage est important, car vous désirez que la lettre ou le symbole que vous utilisez s’affiche correctement, peu importe qui ouvrira votre fichier.

Il est ici question de dépendance du format envers son logiciel, mais également envers une technologie spécifique, d’autres fichiers ou envers son environnement. Le format peut-il être ouvert seulement par un logiciel spécifique? Le format est-il une sorte de contenant dans lequel on retrouve d’autres formats?

Exemples : format de compression de type ZIP, vidéo intégrée dans un fichier texte, fichier vidéo avec une bande-son, etc.

Le format doit-il se connecter à votre environnement pour fonctionner?

Exemple  : livre interactif qui est connecté à la caméra de votre téléphone.

Les ressources externes à votre fichier peuvent être perdues avec le temps, donc plus le format a de dépendances, plus il sera difficile à préserver dans sa forme actuelle.

il s’agit ici des métadonnées internes au fichier. Pensez aux propriétés du fichier auxquelles vous pouvez accéder dans les logiciels et par le biais de votre système d’exploitation.

Identifier un format est louable, mais communiquer des informations sur le contenu et le contenant à même le format est également très utile. Plus un objet numérique est documenté, mieux il pourra être compris dans les années à venir. Un format qui est un bon support aux métadonnées est avantageux, car si le fichier ne s’ouvre plus, il est parfois possible d’obtenir de précieuses informations par le biais des métadonnées (p. ex. : titre, créateur, logiciel utilisé pour enregistrer le format, etc.).

Le format doit suivre un cycle d’amélioration en continu tout en évitant les abus. Les systèmes changent, donc les logiciels et les formats doivent évoluer; un format statique n’est pas nécessairement meilleur qu’un format qui se développe. Toutefois, lancer une série de nouvelles versions d’un format dans un intervalle de temps limité peut être considéré comme abusif, car les changements fréquents menacent

Il existe plusieurs mesures techniques de protection de fichiers. Par exemple, le cryptage et l’utilisation d’un mot de passe sont de bonnes méthodes pour protéger des données sensibles, mais elles ne sont pas compatibles avec la préservation à long terme qui exigera peut-être de changer de format. De la même manière, certaines mesures permettant de protéger la propriété intellectuelle d’un fichier risquent de compromettre l’accès au contenu du fichier.

Quelques suggestions de formats

Photo by Thought Catalog on Unsplash

Formats recommandés :
  • EPUB : format ouvert, très utilisé pour la publication numérique. Attention aux protections intégrées!
  • OpenDocument (ODT, OTT) : généralement associé à LibreOffice, une suite logicielle développée comme équivalent ouvert des logiciels Microsoft. Structure basée sur le XML.
  • Plain text (TXT) : pas de mise en page, mais accessible très facilement, ne dépend d'aucun logiciel.
  • PDF/A : format commun, souvent utilisé pour la préservation à long terme. Idéalement, s'assurer de ne garder que des version 1.3 et suivantes.

Un document textuel peut être très simple, mais il peut également poser certains défis. Par exemple, l’utilisation d’un logiciel de traitement de texte dans le nuage facilite grandement la collaboration, mais l’extraction de ces documents pour les enregistrer localement peut affecter leur mise en forme et parfois la fonctionnalité des hyperliens. Vous devez aussi vous demander s’il est pertinent de préserver toutes les modifications et commentaires d’un texte, uniquement certaines versions intermédiaires ou uniquement la version finale

Si le document textuel contient des objets intégrés (ex. : une image) ou des hyperliens, le format sélectionné peut varier. Le choix de la police peut également affecter la préservation d'un document textuel.

Le format le plus approprié est celui qui va conserver les fonctionnalités du document d'origine tout en permettant sa consultation à long terme.

Autres formats recommandés et plus d'informations : DPC Technology Watch Guidance Note Preserving Documents (2021) : http://doi.org/10.7207/twgn21-07,

Photo by Mika Baumeister on Unsplash

Formats recommandés :

  • Données avec séparateurs (CSV, TXT, TSV) : fichiers simples, mais perte des formules et des relations entre les cellules.
  • OpenDocument (ODS, FODS) : formats ouverts basés sur le XML. La version 1.2 est certifiée en tant que norme ISO alors que la version 1.3 n'est reconnue qu'en tant que standard.
  • Microsoft Excel / Office Open XML (OOXML, XLSX) : non recommandé par certains dépôts, car il s'agit d'un format propriétaire complexe bien qu'il soit documenté et ouvert. Si utilisé, s'assurer de créer un fichier avec Office 2013 ou une version plus récente.

Le principal défi de ces formats est de composer avec les formules, les macros et le contenu intégré. Il faut aussi retenir que d'exporter un fichier tabulé vers un logiciel infonuagique, ou l'inverse, peut occasionner des pertes et/ou des erreurs.

Notez que le format sav de SPSS est parfois recommandé, bien que sa documentation ne soit pas officielle et que sa rétrocompatibilité ne soit pas garantie.

Autres formats recommandés et plus d'informations : DPC Technology Watch Guidance Note : Préservation des feuilles de calcul (2021) : http://doi.org/10.7207/twgn21-09-FR

Art Cabinet with Anthony van Dyck’s ‘Mystic Marriage of St Catherine' de Guillam van Haecht

Formats recommandés :
  • Tagged Image File Format (TIFF) : format le plus utilisé pour la préservation d'images, mais lourd.
  • Joint Photographic Experts Group 2000 (JP2) : plus léger que le TIFF, mais moins largement utilisé;
  • Joint Photographic Expert Group (JPG) : très utilisé, mais l'image est compressée. 
  • Portable Network Graphics (PNG) : utilise une compression sans perte. Assez couramment utilisé, mais pas il n'est toujours supporté par les logiciels.

La plupart des institutions de préservation numérique s’entendent sur les formats d’image les plus sécuritaires à utiliser. Les formats mentionnés ci-dessous sont matriciels, c’est-à-dire qu’ils se composent d’une série de points appelés pixels.

La qualité d’un format peut varier selon plusieurs facteurs comme la résolution (la plus connue), mais également l’espace colorimétrique ou la profondeur des couleurs. Souvent, plus une image est de qualité, plus le fichier est lourd.

Les formats propriétaires RAW ne sont pas recommandés pour la préservation à long terme. À l'opposé, une image créée avec un format compressé (.gif, .jpg, .bmp, etc.) pourrait être préservée telle quelle. Avant de choisir un format d'image, les besoins et les moyens (technologiques, humains et financiers) doivent être évalués.

Autres formats recommandés et plus d'informations : DPC Technology Watch Guidance Note Preserving Raster Images (2021) : http://doi.org/10.7207/twgn21-13

Formats recommandés :
  • Free Lossless Audio Codec (FLAC) : compression sans perte, format plus léger que les WAVE
  • PCM WAVE (WAV) : format de qualité utilisé par plusieurs bibliothèques nationales lors de la numérisation.
  • Broadcast WAVE (BWF) : permet l'ajout de métadonnées dans les fichiers.
  • Ogg Vorbis (OGG) : format ouvert avec une meilleure compression que le mp3, mais moins populaire.

Un fichier audio a plusieurs caractéristiques à considérer (canaux, compression, nombre de bits par échantillon, nombre d'échantillons par seconde, etc.). Si le fichier d'origine est déjà compressé (mp3, aac, etc.) il n'est peut-être pas pertinent de le migrer vers un autre format.

Notez que le format mp3 est un format compressé généralement non recommandé pour la préservation à long terme, mais son adoption généralisée en fait un format assez fiable si le fichier d'origine a été créé ainsi.

Autres formats et informations sur les fichiers audio : DPC Technology Watch Guidance Note Preserving Audio (2021) : http://doi.org/10.7207/twgn21-11

Formats recommandés :
  • MP4 avec H.264 : format compressé surtout utilisé pour la diffusion, très largement répandu.
  • QuickTime (MOV) ou Audio Video Interleaved (AVI) non compressé 4:2:2 : formats très lourds, mais de bonne qualité.
  • Matroska avec codec FFV1 (MKV) : format standardisé pas trop compressé.
  • Material Exchange Format avec JPEG 2000 (MXF) : recommandé par certaines bibliothèques nationales, bien documenté, mais peu utilisé dans le public.
  • Digital Picture Exchange (DPX) : format très lourd utilisé lors de la numérisation de pellicules filmiques.

Les formats vidéo sont des conteneurs et plusieurs caractéristiques (couleur, compression, son, etc.) peuvent influencer leur préservation à long terme. Plus d'un format peut être utilisé pour un projet selon les besoins (création, transformation, diffusion) et il n'y a pas de consensus dans la communauté sur les meilleurs formats vidéo à utiliser pour la préservation à long terme.

Le défi le plus important est de balancer le poids du fichier par rapport à sa qualité.

Plus de formats et d'informations : DPC Technology Watch Guidance Note Preserving Moving Images (2021) : http://doi.org/10.7207/twgn21-12

Photo by Gaël Gaborel on Unsplash

Lister des formats recommandés pour la préservation à long terme des données géospatiales est presque impossible vu leur complexité (plusieurs types de structures différentes, beaucoup de formats propriétaires, etc.). Il n'y a aucun consensus à ce sujet.

Certains formats recommandés :
  • Geospatial Tagged Image File Format (GeoTIFF) - format ouvert qui permet d'inclure des coordonnées géographiques à une image.
  • Geographic Markup Language (GML) : format ouvert basé sur une norme, mais complexe et beaucoup de profils associés au format.
  • Keyhole Markup Language (KML. KMZ) : langage XML qui peut être associé à plusieurs autres fichiers qui doivent aussi être archivés (ne pas utiliser d'hyperliens). Format ouvert et largement utilisé.
  • ESRI Shapefile (SHP SHX, DBF, PRJ, SBX, SBN) : format propriétaire, mais ouvert et très utilisé.

Les données géospatiales consistent généralement en une série de fichiers qui se complètent. Elles peuvent être intrinsèquement liées au système d'information géographique qui les exploite. Les métadonnées, les systèmes de référencement des coordonnées et la précision doivent être préservés avec les données. 

Plus de formats et d'informations : DPC Technology Watch Guidance Note : Préservation des systèmes d'information géographique (SIG) (2021) : http://doi.org/10.7207/twgn21-16-FR

Photo by David Pupaza on Unsplash

Formats recommandés :
  • Formats avec séparateurs de valeurs (CSV, TSV, TXT) : préserve les données, mais pas les relations ni les formules. Surtout utile pour les bases de données simples et de petite taille.
  • Format de préservation de base de données (SIARD 1.0 et 2.0) : format ouvert le plus établi pour la préservation de bases de données, mais n’est utilisable que pour certains types de base de données.
  • Format léger de base de données relationnelles (SQLITE) : format simple utilisé pour les bases de données relationnelles.

Les bases de données sont complexes à préserver vu leur structure et l'évolution de leur contenu. Il est important de circonscrire les besoins avant de choisir un format de préservation.

Autres formats recommandés et plus d'informations : DPC Collection de notes d'orientation sur les types de données : Préservation des bases de données (2021) : http://doi.org/10.7207/twgn21-06-FR

Image par Gerd Altmann de Pixabay 

Formats recommandés:
  • ASTM E57 3D file format (E57) : format non-propriétaire partiellement basé sur le XML avec des spécifications publiées. 
  • COLLAborative Design Activity (DAE) : format standardisé basé sur le XML utilisé dans les applications interactives.
  • Extensible 3D (X3D, X3DV, X3DB, etc.) : famille de formats. Standard ouvert développé et maintenu par le consortium Web 3D.
  • Polygon File Format (PLY) : développé par l'Université Stanford, format acceptable pour les objets 3D numérisés.
  • STereoLithography (STL) : format propriétaire avec une documentation ouverte. Format acceptable pour les objets 3D numérisés.
  • Wavefront OBJ (OBJ) ; représente la géométrie 3D en tant que texte ASCII. Ne supporte pas les armatures, le maillage ou l'animation. Format acceptable pour les objets numérisés.

Les formats 3D sont complexes, souvent propriétaires et il existe peu d'interopérabilité entre les divers systèmes. La relation avec les données connexes, les dépendances matérielles et logicielles doivent être enregistrées et préservées. Il n'y a pas de consensus sur les meilleurs formats à utiliser dans la communauté de préservation. Il faut analyser les besoins de fonctionnalités avant d'opter pour un format ou pour un autre et parfois, le choix n'existe pas. La migration des formats 3D est peu recommandée.

Autres formats recommandés et plus d'informations : DPC Notes d'orientation sur les types de données Préserver les formats de fichier 3D (2021) : http://doi.org/10.7207/twgn21-14-FR

Autres ressources d'intérêt : Musée national des beaux-arts du Québec. Guide de numérisation 3D d'oeuvres d'art (2022) : https://www.mnbaq.org/ressources-documentaires/guide-de-numerisation-3d 

J.Moore, A. Rountrey, H. Scates Kettler. 3D Data Creation to Curation: Community Standards for 3D Data Preservation (2022) : https://bit.ly/ACRL3Ddata

 

Image par xresch de Pixabay 

Formats recommandés :
  • Industry Foundation Classes (IFC) : format en texte brut, parfois encodé en XML, qui n'est pas associé à une plateforme. Standard ouvert et normé pour l'échange de données BIM (bâti immobilier modélisé). 
  • AutoDesk's Drawing (DWG) : format largement utilisé qui est devenu un standard dans l'industrie. Spécifications non officielles disponibles.
  • Portable Document Format/Engineering (PDF/E) : normé et basé sur le format PDF. Utilisé pour l'échange de documentation technique.
  • Standard for the Exchange of Product Model Data (STP, STEP, P21) : format normé en texte brut qui n'est pas associé à une plateforme et qui est utilisé pour partager des données.

Lorsque vient le temps de choisir un format de préservation, il faut penser à l'utilisation future des fichiers ainsi qu'aux caractéristiques et fonctionnalités qu'il convient de conserver à long terme. Le meilleur format peut être celui d'origine. Il y a des risques de perte de données lors de migration de format. 

Autres formats recommandés et plus d'informations : DPC Technology Watch Guidance Note Preserving CAD (2021) : http://doi.org/10.7207/twgn21-15 

Photo by Igor Miske on Unsplash

Formats recommandés : 
  • Web ARCive (WARC) : norme ISO et format recommandé et utilisé par la majorité des bibliothèques nationales.
  • ARC : format qui précède WARC, est acceptable pour la conservation, mais mieux vaut utiliser WARC pour les nouvelles captures

L'archivage de sites Web est lié aux logiciels de capture (Heritrix, Umbra, Brozzler, Rhizom'es Conifer, Webrecorder, etc.) et aux logiciels qui permettent de visualiser le site capturé (Wayback, Python Wayback, Replayweb, etc.). Il faut prendre en considération qu'un site Web "vivant" n'est pas nécessairement indépendant. Des décisions sur la fréquence de capture et sur la profondeur des liens capturés (est-ce que les sites pointés par le site Web archivé doivent aussi être capturés) doivent être prises et documentées.

La caractérisation et le profilage permettent aux usagers d’analyser et de comprendre le contenu capturé. Comprendre les caractéristiques de base du contenu capturé permet de prendre les décisions appropriées au sujet de la conservation numérique.

Plus d'informations : International Internet Preservation Consortium. Training Materials (2022) : https://netpreserve.org/web-archiving/training-materials/

Maureen Pennock. DPC Technology Watch Report. Web-Archiving (2013) : https://www.dpconline.org/docs/technology-watch-reports/865-dpctw13-01-pdf/file

Formation sur la préservation numérique

À toi pour toujours : une aventure de préservation numérique

Présentation dans le cadre de la Semaine des données à cœur 2022

Émilie Fortin, Bibliothèque de l’Université Laval, 17 février 2022

Afin de sauver l'amour de sa vie, une héroïne part à la recherche de données de recherche vieilles de plusieurs dizaines d'années. Sera-t-elle capable de les trouver? D'y accéder? Comment pouvons-nous préserver à long terme des données de recherche? Est-ce seulement une question de dépôts? Tout au long de l'aventure, nous partagerons avec vous des trucs et des conseils afin de vous assurer d'un accès durable à vos données.