Les formats de fichiers numériques sont conçus selon des principes structurels et organisationnels prédéfinis. Ces principes sont généralement listés dans un document de spécifications. Ces spécifications fournissent les détails sur les subdivisions, l'encodage, les séquences, les relations internes qui permettent de construire et de valider un format et permettent à des logiciels de décoder et d'ouvrir ces fichiers. Une spécification de format indique les frontières entre les séquences de bits qui représentent un caractère ASCII, une instruction-machine, une sélection de couleur ou autre.
Prenons l'exemple du format d'image PNG :
Pour espérer qu'un fichier reste accessible longtemps, voici certains critères à considérer lors du choix :
Assessing the Durability of Formats in a Digital Preservation Environment
Article d'Andreas Stanescu paru dans D-Lib Magazine (novembre 2004) qui propose une méthode pour mesurer la durabilité des formats numériques.
Evaluating File Formats for Long-term Preservation
Article de Judith Rog et Caroline van Wijk sur une méthode développée à la Bibliothèque nationale des Pays-Bas pour déterminer le niveau de risque que pose un format de fichier numérique (2007).
Un format ouvert est préférable à un format fermé. Puisque les spécifications techniques du format sont publiques, les informations qui nous permettent de comprendre son fonctionnement et sa structure sont accessibles.
Fait intéressant : certaines extensions cachent parfois des fichiers au format ouvert. Par exemple, un fichier de script peut avoir des extensions comme *.html, *.xml, *.sc, mais il s’agit en réalité de formats plein texte.
Fait intéressant : certains formats ouverts sont devenus au fil du temps des normes. Par exemple, PDF et PDF/a sont des normes ISO.
Un format propriétaire appartient à une personne morale. Il peut être ouvert ou non. Son évolution est contrôlée par son propriétaire. Ces formats sont généralement rattachés à des logiciels particuliers. Lorsque les formats sont non propriétaires, leur évolution est contrôlée par une communauté d’utilisateurs et ils sont en grande majorité ouverts.
Exemples de format non propriétaires : mkv, txt, xml, csv, png
Exemples de formats propriétaires, mais ouverts : fichiers Office avec x, PDF, rar
Exemple de format propriétaire : AutoCAD, psd, wma
Si uniquement une dizaine de personnes utilisent un format, même si celui-ci est ouvert et non-propriétaire, il va disparaître. À l’opposé, un format propriétaire extrêmement populaire est très peu à risque de s’éteindre dans les prochaines années.
Si un format propriétaire fermé est adopté comme standard par une bibliothèque, un centre d’archives ou une communauté de recherche, il est fort possible que le format soit pérenne grâce à sa popularité. Toutefois, son évolution doit être surveillée de près.
Le format doit offrir de bonnes capacités, mais éviter d’être trop complexe sinon il sera difficile à préserver dans le temps avec toutes ses fonctionnalités. La complexité d’un format peut se définir par sa lisibilité par les humain, sa compression et la variété de ses fonctionnalités. Plus il faut déployer d’efforts pour déchiffrer un format, plus il y a de chance qu’il ne soit pas parfaitement compris.
Le format est-il reconnu pour sa rétrocompatibilité? Lorsqu’une nouvelle version d’un logiciel est produite, à quel point est-ce possible d’ouvrir les formats créés avec les anciennes versions du logiciel? Les générations d’un même format sont-elles très différentes entre elles?
Fait intéressant : saviez-vous qu’Adobe assure la rétrocompatibilité des formats PDF jusqu’à la version 1.3 (sortie en 1999) uniquement?
Dans un environnement occidental, le format utilisera probablement un encodage standard de type ASCII ou Unicode. Si vous utilisez des symboles ou des langues non-latine, l’encodage est important, car vous désirez que la lettre ou le symbole que vous utilisez s’affiche correctement, peu importe qui ouvrira votre fichier.
Il est ici question de dépendance du format envers son logiciel, mais également envers une technologie spécifique, d’autres fichiers ou envers son environnement. Le format peut-il être ouvert seulement par un logiciel spécifique? Le format est-il une sorte de contenant dans lequel on retrouve d’autres formats?
Le format doit-il se connecter à votre environnement pour fonctionner?
Les ressources externes à votre fichier peuvent être perdues avec le temps, donc plus le format a de dépendances, plus il sera difficile à préserver dans sa forme actuelle.
il s’agit ici des métadonnées internes au fichier. Pensez aux propriétés du fichier auxquelles vous pouvez accéder dans les logiciels et par le biais de votre système d’exploitation.
Identifier un format est louable, mais communiquer des informations sur le contenu et le contenant à même le format est également très utile. Plus un objet numérique est documenté, mieux il pourra être compris dans les années à venir. Un format qui est un bon support aux métadonnées est avantageux, car si le fichier ne s’ouvre plus, il est parfois possible d’obtenir de précieuses informations par le biais des métadonnées (p. ex. : titre, créateur, logiciel utilisé pour enregistrer le format, etc.).
Le format doit suivre un cycle d’amélioration en continu tout en évitant les abus. Les systèmes changent, donc les logiciels et les formats doivent évoluer; un format statique n’est pas nécessairement meilleur qu’un format qui se développe. Toutefois, lancer une série de nouvelles versions d’un format dans un intervalle de temps limité peut être considéré comme abusif, car les changements fréquents menacent
Il existe plusieurs mesures techniques de protection de fichiers. Par exemple, le cryptage et l’utilisation d’un mot de passe sont de bonnes méthodes pour protéger des données sensibles, mais elles ne sont pas compatibles avec la préservation à long terme qui exigera peut-être de changer de format. De la même manière, certaines mesures permettant de protéger la propriété intellectuelle d’un fichier risquent de compromettre l’accès au contenu du fichier.
Photo by Thought Catalog on Unsplash
Un document textuel peut être très simple, mais il peut également poser certains défis. Par exemple, l’utilisation d’un logiciel de traitement de texte dans le nuage facilite grandement la collaboration, mais l’extraction de ces documents pour les enregistrer localement peut affecter leur mise en forme et parfois la fonctionnalité des hyperliens. Vous devez aussi vous demander s’il est pertinent de préserver toutes les modifications et commentaires d’un texte, uniquement certaines versions intermédiaires ou uniquement la version finale
Si le document textuel contient des objets intégrés (ex. : une image) ou des hyperliens, le format sélectionné peut varier. Le choix de la police peut également affecter la préservation d'un document textuel.
Le format le plus approprié est celui qui va conserver les fonctionnalités du document d'origine tout en permettant sa consultation à long terme.
Autres formats recommandés et plus d'informations : DPC Technology Watch Guidance Note Preserving Documents (2021) : http://doi.org/10.7207/twgn21-07,
Photo by Mika Baumeister on Unsplash
Le principal défi de ces formats est de composer avec les formules, les macros et le contenu intégré. Il faut aussi retenir que d'exporter un fichier tabulé vers un logiciel infonuagique, ou l'inverse, peut occasionner des pertes et/ou des erreurs.
Notez que le format sav de SPSS est parfois recommandé, bien que sa documentation ne soit pas officielle et que sa rétrocompatibilité ne soit pas garantie.
Autres formats recommandés et plus d'informations : DPC Technology Watch Guidance Note : Préservation des feuilles de calcul (2021) : http://doi.org/10.7207/twgn21-09-FR
Art Cabinet with Anthony van Dyck’s ‘Mystic Marriage of St Catherine' de Guillam van Haecht
La plupart des institutions de préservation numérique s’entendent sur les formats d’image les plus sécuritaires à utiliser. Les formats mentionnés ci-dessous sont matriciels, c’est-à-dire qu’ils se composent d’une série de points appelés pixels.
La qualité d’un format peut varier selon plusieurs facteurs comme la résolution (la plus connue), mais également l’espace colorimétrique ou la profondeur des couleurs. Souvent, plus une image est de qualité, plus le fichier est lourd.
Les formats propriétaires RAW ne sont pas recommandés pour la préservation à long terme. À l'opposé, une image créée avec un format compressé (.gif, .jpg, .bmp, etc.) pourrait être préservée telle quelle. Avant de choisir un format d'image, les besoins et les moyens (technologiques, humains et financiers) doivent être évalués.
Autres formats recommandés et plus d'informations : DPC Technology Watch Guidance Note Preserving Raster Images (2021) : http://doi.org/10.7207/twgn21-13
Un fichier audio a plusieurs caractéristiques à considérer (canaux, compression, nombre de bits par échantillon, nombre d'échantillons par seconde, etc.). Si le fichier d'origine est déjà compressé (mp3, aac, etc.) il n'est peut-être pas pertinent de le migrer vers un autre format.
Notez que le format mp3 est un format compressé généralement non recommandé pour la préservation à long terme, mais son adoption généralisée en fait un format assez fiable si le fichier d'origine a été créé ainsi.
Autres formats et informations sur les fichiers audio : DPC Technology Watch Guidance Note Preserving Audio (2021) : http://doi.org/10.7207/twgn21-11
Les formats vidéo sont des conteneurs et plusieurs caractéristiques (couleur, compression, son, etc.) peuvent influencer leur préservation à long terme. Plus d'un format peut être utilisé pour un projet selon les besoins (création, transformation, diffusion) et il n'y a pas de consensus dans la communauté sur les meilleurs formats vidéo à utiliser pour la préservation à long terme.
Le défi le plus important est de balancer le poids du fichier par rapport à sa qualité.
Plus de formats et d'informations : DPC Technology Watch Guidance Note Preserving Moving Images (2021) : http://doi.org/10.7207/twgn21-12
Photo by Gaël Gaborel on Unsplash
Lister des formats recommandés pour la préservation à long terme des données géospatiales est presque impossible vu leur complexité (plusieurs types de structures différentes, beaucoup de formats propriétaires, etc.). Il n'y a aucun consensus à ce sujet.
Les données géospatiales consistent généralement en une série de fichiers qui se complètent. Elles peuvent être intrinsèquement liées au système d'information géographique qui les exploite. Les métadonnées, les systèmes de référencement des coordonnées et la précision doivent être préservés avec les données.
Plus de formats et d'informations : DPC Technology Watch Guidance Note : Préservation des systèmes d'information géographique (SIG) (2021) : http://doi.org/10.7207/twgn21-16-FR
Photo by David Pupaza on Unsplash
Les bases de données sont complexes à préserver vu leur structure et l'évolution de leur contenu. Il est important de circonscrire les besoins avant de choisir un format de préservation.
Autres formats recommandés et plus d'informations : DPC Collection de notes d'orientation sur les types de données : Préservation des bases de données (2021) : http://doi.org/10.7207/twgn21-06-FR
Image par Gerd Altmann de Pixabay
Les formats 3D sont complexes, souvent propriétaires et il existe peu d'interopérabilité entre les divers systèmes. La relation avec les données connexes, les dépendances matérielles et logicielles doivent être enregistrées et préservées. Il n'y a pas de consensus sur les meilleurs formats à utiliser dans la communauté de préservation. Il faut analyser les besoins de fonctionnalités avant d'opter pour un format ou pour un autre et parfois, le choix n'existe pas. La migration des formats 3D est peu recommandée.
Autres formats recommandés et plus d'informations : DPC Notes d'orientation sur les types de données Préserver les formats de fichier 3D (2021) : http://doi.org/10.7207/twgn21-14-FR
Autres ressources d'intérêt : Musée national des beaux-arts du Québec. Guide de numérisation 3D d'oeuvres d'art (2022) : https://www.mnbaq.org/ressources-documentaires/guide-de-numerisation-3d
J.Moore, A. Rountrey, H. Scates Kettler. 3D Data Creation to Curation: Community Standards for 3D Data Preservation (2022) : https://bit.ly/ACRL3Ddata
Lorsque vient le temps de choisir un format de préservation, il faut penser à l'utilisation future des fichiers ainsi qu'aux caractéristiques et fonctionnalités qu'il convient de conserver à long terme. Le meilleur format peut être celui d'origine. Il y a des risques de perte de données lors de migration de format.
Autres formats recommandés et plus d'informations : DPC Technology Watch Guidance Note Preserving CAD (2021) : http://doi.org/10.7207/twgn21-15
Photo by Igor Miske on Unsplash
L'archivage de sites Web est lié aux logiciels de capture (Heritrix, Umbra, Brozzler, Rhizom'es Conifer, Webrecorder, etc.) et aux logiciels qui permettent de visualiser le site capturé (Wayback, Python Wayback, Replayweb, etc.). Il faut prendre en considération qu'un site Web "vivant" n'est pas nécessairement indépendant. Des décisions sur la fréquence de capture et sur la profondeur des liens capturés (est-ce que les sites pointés par le site Web archivé doivent aussi être capturés) doivent être prises et documentées.
La caractérisation et le profilage permettent aux usagers d’analyser et de comprendre le contenu capturé. Comprendre les caractéristiques de base du contenu capturé permet de prendre les décisions appropriées au sujet de la conservation numérique.
Plus d'informations : International Internet Preservation Consortium. Training Materials (2022) : https://netpreserve.org/web-archiving/training-materials/
Maureen Pennock. DPC Technology Watch Report. Web-Archiving (2013) : https://www.dpconline.org/docs/technology-watch-reports/865-dpctw13-01-pdf/file
À toi pour toujours : une aventure de préservation numérique
Présentation dans le cadre de la Semaine des données à cœur 2022
Émilie Fortin, Bibliothèque de l’Université Laval, 17 février 2022
Afin de sauver l'amour de sa vie, une héroïne part à la recherche de données de recherche vieilles de plusieurs dizaines d'années. Sera-t-elle capable de les trouver? D'y accéder? Comment pouvons-nous préserver à long terme des données de recherche? Est-ce seulement une question de dépôts? Tout au long de l'aventure, nous partagerons avec vous des trucs et des conseils afin de vous assurer d'un accès durable à vos données.