Principaux formats de données

Pour assurer la persistance des données, ces dernières sont stockées dans des fichiers.

Il y a 2 types de formats de fichiers dont voici les principaux :

  • Types « texte » :

    Lisibles par des éditeurs de texte comme Notepad++, Geany, Bloc-Notes qui ne contiennent que des caractères alphanumériques  : CSV, XML, JSON...

    Les caractères sont codés en mémoire en respectant une norme d'encodage, telle que le Latin1 [html, fr] (spécialisé pour coder efficacement les caractères latins) ou l'UTF-8 [html, fr], le plus répandu !

  • Type « binaire » :

    Lus uniquement avec un logiciel dédié (pas un éditeur de texte). Ce sont principalement les formats des tableurs (LibreOffice Calc, Microsoft Office Excel, Numbers...) : ODS, XLS, XLSX ...

Le format CSV (Comma Separated Values, données avec des séparateurs) est à privilégier ; c'est le plus universel et le plus simple. C'est aussi très flexible : on peut troquer la virgule contre un point virgule ou une tabulation comme séparateur de données. En France, on utilise plutôt le point virgule car la virgule peut être utilisée pour des nombres décimaux.

ConseilAffichage des extensions de fichiers

En informatique, une extension de nom de fichier [html, fr] (ou simplement extension de fichier) est un suffixe de nom de fichier fait pour identifier son format. Il est séparé du nom par un point.

Par exemple, une collection au format ODS pourra s'appeler MaCollectionDeTimbres.ODS.

Les extensions des formats XML, CSV et JSON les mêmes que leur nom : XML, CSV et JSON.

C'est grâce à cette extension qu'un système d'exploitation tel que Linux ou Windows sait qu'il faut lancer le programme LibreOffice Calc, pour lire ce fichier lorsqu'on clique dessus.

Par défaut, Windows n'affichent pas les extensions de fichiers. Cela peut être source d'erreur quand on code un programme informatique, par exemple en langage Python, dans lequel on doit lire le contenu d'un fichier. Il faut alors indiquer dans le code le nom complet du fichier, avec son extension, sans quoi le programme ne trouvera pas le fichier. Pour cette raison, il est conseillé, lorsque vous codez, de régler Windows de façon à faire apparaître les extensions de fichiers. Tapez dans un moteur de recherche les mots "Windows afficher extension" pour trouver comment faire.

SimulationÀ faire vous même...

Essayez d'ouvrir un fichier binaire (une image d'extension JPG par exemple) par un traitement de texte basique tel que Pluma Text Editor, Notepad, Geany, NotePad++ qui n'est pas fait pour ça.

ComplémentLecture d'un fichier binaire avec un traitement de texte

Quand on ouvre un fichier binaire avec un traitement de texte basique tel que Notepad++, Geany, Bloc-Notes, voici le genre de résultat qu'il affiche :

?m'ýõã‹$SoŽâÄn0'H"ò¹ãÝsw|S..oS:Ù`^?–-??ê9?œ!?‘,Y8??~ëž;—Ëï.X??„È¡uŠ3á?âŽâb"...³"4? gͳ?Á‚?a?S\„?...,ÇY%?ÚèP?eZ´²±â?lK |+Æ

L'explication est qu'au moment de la lecture, le traitement de texte décode les données du fichier en utilisant les règles qu'il connaît, c'est à dire les encodages de caractères, comme le latin1 ou l'UTF8. Comme le fichier source n'a pas été codé de cette façon, on obtient cette suite de caractères cabalistiques. Les caractères affichés correspondent à la traduction des octets lus par le logiciel en caractères, en utilisant l'encodage des caractères par défaut du logiciel (UTF-8 ou Latin-1 souvent).