Aller au contenu principal

Préservation numérique

Image : Jean-François Ruest

Comment identifier un format de fichier - extension

Pour identifier un format de fichier, il suffit la plupart du temps de regarder sa section finale, c’est-à-dire son extension. Par exemple, le fichier « mes-notes.xlsx » est un fichier Excel alors que « ma-photo.jpg » est une image. Cette méthode a ses limites puisqu’une extension peut être modifiée, volontairement ou par erreur, ou être complètement inconnue. Certains systèmes d’exploitation sont même configurés par défaut pour cacher l’extension des fichiers, ce qui peut compliquer la tâche.

Une même extension peut également représenter plus d'un format. Prenons l'exemple du fichier "inconnu.his". L'extension HIS a été utilisée par plusieurs logiciels au fil du temps (JetDB, WordPerfect, Project, Vorbis, etc.).  

Si vous désirez identifier un format par son extension, les sites suivants pourront vous êtres utiles :

  1. PRONOM : Le registre PRONOM des archives nationales de Grande-Bretagne permet la recherche par extension.
  2. FileInfo.com : Site qui permet de retrouver un grand nombre d'extensions obscures et liste les différents programmes qui peuvent y être associés.
  3. DataTypes.net : Recherche par extension, régulièrement mis à jour.
  4. DigiPres Commons - Find File Formats : Agrégateur de plusieurs registres de formats, recherche par extension.
  5. Wikidata, liste de formats : Regroupe un grand nombre de formats par extension et fait des liens avec les autres ressources, mais recherche plus ou moins conviviale.
  6. FILExt : Possible de déposer un fichier pour le reconnaître et permet de chercher avec les extensions.

Comment identifier un format de fichier - signature

Le meilleur moyen d’identifier un format est d’utiliser sa signature. La signature d’un fichier correspond à une série de bits qui s’enchaînent de façon prévisible au début, à la fin ou aux deux extrémités d’un fichier.

Un outil comme PRONOM, très utilisé dans la communauté de préservation numérique, enregistre les signatures de début de fichiers (BOF pour Beginning of File) et de fin de fichiers (EOF pour End of File) et permet de récupérer l’identifiant unique d’un format. 

Prenons l'exemple du fichier ci-dessous (HighgateWest_01-2.jpg).

Ouvrons ce fichier avec un outil qui permet de visualiser les bits en code hexadécimal (HexEd.it a été utilisé). La première ligne correspond à la signature interne enregistrée dans PRONOM pour les JPEG version 2.0 (PUID x-fmt/398) : FF D8 FF E1. Cette séquence de bits est aussi appelée "nombre magique" (magic number).

L'extension de l'image, JPG, est donc bonne.

Pour vous amuser avec les formats, voici des outils qui permettent de visualiser le code hexadécimal ainsi que le registre PRONOM.

Comment identifier un format de fichier - autre

Maintenant que vous savez reconnaître les formats grâce à leur extension et que vous savez ce que signifie la signature interne d'un fichier, que faites-vous lorsque vous rencontrez un fichier avec une extension inconnue ou un fichier sans extension?

Cas 1 : aucune extension

Vous pouvez téléverser le fichier dans les sites ci-dessous. S'il s'agit d'un format courant et qu'il a une signature interne, il sera reconnu.

Cas 2: extension présente, mais inconnue

Les sites d'identification de formats ne vous permettent pas d'affirmer à 100% que vous savez de quoi il s'agit et votre fichier ne possède pas de signature interne reconnue. Il vous reste trois options :

  • Recueillir toutes les informations contextuelles possibles (Nom du fichier - contient-il des indices sur le logiciel? Autres fichiers qui accompagne votre inconnu - ceux-ci peuvent-ils vous renseigner? Date - savez-vous en quelle année le fichier inconnu a été créé?)
  • Ouvrir avec un éditeur de texte.  Quelques fois, les fichiers peuvent ouvrir dans des éditeurs de texte et contiennent des données en provenance d'instruments de recherche ou du code.
  • Avec les informations que vous avez, cherchez le Web.