Mastodon Mastodon Mastodon Mastodon Mastodon

Pense-bête : les formats de données et de fichiers

Format de données

Définition

En informatique, un format de données est la façon dont est représenté (codé) un type de données, sous forme d’une suite de bits. Par commodité, on interprète cette suite de bits comme un nombre binaire, et on dit par raccourci que la donnée est représentée comme un nombre. Par exemple, le caractère « C » est généralement codé comme une suite dont 3 bits sont activés, ce que l’on écrit 0100 0011, soit 67 en décimal.
Un format de données est ainsi une convention (éventuellement normalisée) utilisée pour représenter des données — des informations représentant un texte, une page, une image, un son, un fichier exécutable, etc. Lorsque ces données sont stockées dans un fichier, on parle de format de fichiers. Une telle convention permet d’échanger des données entre divers programmes informatiques ou logiciels, soit par une connexion directe, soit par l’intermédiaire d’un fichier. On appelle interopérabilité cette possibilité d’échanger des données entre différents logiciels.

Typologie

On distingue un format dont la spécification est publiquement accessible, un format ouvert, d’un format fermé (ou opaque) dont la spécification est secrète. Un format fermé correspond généralement à un logiciel seul capable de pleinement l’exploiter.
Une autre distinction s’opère entre un format normalisé, faisant l’objet d’une normalisation par une institution publique ou internationale (ISO, W3C) et un format quelconque, qui peut devenir un standard de fait s’il est populaire. Un tel format est parfois normalisé par la suite comme « ODT ».
Un format est dit propriétaire s’il a été élaboré par une entreprise, dans un but essentiellement commercial. Un format propriétaire peut être ouvert (le format PDF d’Adobe par exemple) s’il est publié, ou fermé (le format « DOC » de Microsoft, par exemple). Mais même lorsque des spécifications sont rendues publiques, les entreprises à l’origine de formats propriétaires tentent d’en conserver le contrôle, soit en proposant régulièrement de nouvelles versions plus élaborées (contrôle par maintien d’une avance technologique), soit en utilisant des moyens juridiques comme le brevet.
Ce type de pratiques anti-concurrentielles via des outils juridiques est admis aux États-Unis. Elle est sujette à controverse en Europe.
Source : Wikipédia


La liste ci-après n’est pas exhaustive. Elle dresse, pour l’essentiel, les formats de fichiers rencontrés par les opérateurs de PAO.


Les formats de fichiers de traitement de texte

  • Document (suffixe : .doc)
    « DOC » est l’extension de nom de fichier traditionnellement utilisée pour la documentation. Format texte propriétaire, il est disponible sur une large variété de systèmes d’exploitation.
    Utilisée dans les années 1980, par l’éditeur Corel Corp. pour son traitement de texte WordPerfect, Microsoft s’en empare à son tour, dans les années 1990, pour les fichiers de son logiciel Microsoft Word.
    Source : Wikipédia

  • Document XML (suffixe : .docx)
    Document XML est le format de fichier par défaut du traitement de texte Microsoft Word, à partir de la version Microsoft Office 2007. C’est la concrétisation de la norme Office Open XML, développée par Microsoft, dont l’objectif était de concurrencer la solution d’interopérabilité OpenDocument.
    « DOCX » est un format « conteneur », compressé au format « ZIP », qui contient l’ensemble des fichiers constituant le document.
    Source : Wikipédia

  • OpenDocument (suffixe : .odt)
    OpenDocument est un format ouvert de données pour les applications bureautiques : traitement de texte, tableur, présentation, etc. OpenDocument est la désignation d’usage d’une norme publiée par OASIS et dont l’appellation officielle est Open Document Format for Office Applications, également abrégée par le sigle « ODF ».
    En France, le format OpenDocument est le seul format recommandé comme format bureautique par le Référentiel général d’interopérabilité (depuis sa version 2.0, validé le 20 avril 2016).
    Source : Wikipédia

  • Rich Text Format (suffixe : .rtf)
    Le Rich Text Format (format de texte enrichi) est un format de fichier développé par la société Microsoft. Ce format descriptif non compressé est reconnu par la plupart des logiciels de traitement de texte comme OpenOffice.org Writer, LibreOffice Writer ou Microsoft Word. Sa vocation initiale est d’être un format pivot entre logiciels et plates-formes hétérogènes.
    Il est utilisé par défaut dans l’éditeur TextEdit de Mac OS X, dans WordPad de Windows, et dans le traitement de texte Ted, courant sous les systèmes de type Unix.
    Il existe une variante du format « RTF », le format « RTFD », pour l’essentiel, pris en charge par des logiciels développés pour le système macOS.
    Source : Wikipédia

  • Rich Text Format Directory (suffixe : .rtfd)
    Le format Rich Text Format Directory (Format de texte enrichi en dossier), ou Rich Text Format with Attachements (Format de texte enrichi avec pièces jointes), est un format de fichier du logiciel TextEdit, une application fonctionnant sous NeXTSTEP, puis OS X, également portée sur d’autres versions d’Unix.
    Il est basé sur le format « RTF », et permet d’insérer des images, ainsi que diverses données (son, vidéo, etc.) dans le corps du texte.
    Principalement utilisé sur les systèmes d’exploitation d’Apple Inc., par les applications TextEdit et Pages, il se présente comme un « bundle », ou « conteneur », incluant le fichier « RTF » et les documents associés dans leur format d’origine.
    Un des avantages de « RTFD » est de pouvoir inclure des données vectorielles, comme celles présentes dans un fichier au format « PDF », permettant ainsi, l’impression en grand format, sans perte de qualité.
    Source : Wikipédia

  • Texte (suffixe : .txt)
    En informatique, un fichier « texte » (également nommé « texte brut » ou « texte simple ») est un fichier dont le contenu représente uniquement une suite de caractères ; il utilise nécessairement une forme particulière de codage des caractères qui peut être une variante ou une extension du standard local des États-Unis, l’ASCII.
    Sans définition officielle sur la nature de ce format, les différentes interprétations qui en sont faites, partagent pour propriétés essentielles, l’utilisation des caractères imprimables (cf. caractères alphanumériques), des espaces, ainsi que les retours à la ligne.
    Source : Wikipédia


Les formats de fichiers graphiques

Formats des images matricielles (pixel)
  • Windows bitmap (suffixe : .bmp)
    Windows bitmap est un format d’image matricielle ouvert, développé par Microsoft et IBM. C’est un des formats d’images les plus simples à développer et à utiliser pour programmer. Il est lisible par quasiment tous les visualiseurs et éditeurs d’images.
    Source : Wikipédia

  • Graphics Interchange Format (suffixe : .gif)
    Le Graphics Interchange Format (format d’échange d’images) est un format d’image numérique couramment utilisé sur le web.
    Une caractéristique du « GIF » est le nombre de couleurs supportées : au maximum 256 choisies parmi les 16 777 216 nuances de la palette RVB. Chaque pixel est représenté sur 8 bits au plus, et une palette composée de 2 à 256 couleurs est créée pour chaque image.
    Source : Wikipédia

  • Joint Photographic Experts Group (suffixe : .jpeg)
    Joint Photographic Experts Group est une norme qui définit le format d’enregistrement et l’algorithme de décodage pour une représentation numérique compressée d’une image fixe.
    « JPEG » définit deux classes de processus de compression :

    • avec pertes ou compression irréversible. C’est le format « classique ». Il permet des taux de compression de 3 à 100 ;
    • sans perte ou compression réversible. Il n’y a pas de pertes d’information, il est donc possible de revenir aux valeurs originales de l’image. Les gains en termes de compression sont alors plus modestes, avec un taux de compression de l’ordre de 2 à 8.

    Cet algorithme est très populaire, en particulier sur Internet où la compression d’un fichier permet de réduire le coût en bande passante. Il est possible d’enregistrer une image dans le format « JPEG » avec la majeure partie des appareils photo numériques et téléphones portables. Cependant, les pertes se produisant lors de la compression « classique » font qu’il est moins utilisé dans certains domaines, comme l’imagerie médicale, où la restitution fidèle de l’image initiale est nécessaire.
    Source : Wikipédia

  • Portable Network Graphics (suffixe : .png)
    Le Portable Network Graphics est un format ouvert, créé pour remplacer le format « GIF », dont la compression était soumise à un brevet. Le « PNG » est un format sans perte, spécialement adapté à la publication sur Internet d’images simples comprenant des aplats de couleurs.
    Source : Wikipédia

  • Photoshop Document (suffixe : .psd)
    Le format Photoshop Document est un format propriétaire destiné à l’utilisation du logiciel Adobe Photoshop. Il est partiellement pris en charge par d’autres logiciels de traitement d’images, tels que GIMP.
    Il existe une variante de « PSD », conçue pour les documents de taille importante, le format « PSB » (Photoshop Big), qui permet de diminuer significativement la taille des fichiers à l’enregistrement. Sa compatibilité n’est possible qu’avec les versions de Photoshop CS et suivantes.
    Source : Wikipédia

  • Tagged Image File Format (suffixe : .tiff)
    Le Tag(ged) Image File Format est un format « conteneur » (ou encapsulation), permettant le « transport » de données de formats arbitraires.
    Compressé ou non, il est lu par de nombreux logiciels de traitement d’image matricielle.
    Source : Wikipédia

  • RAW (suffixes : .crw .cr2 .cr3 [Canon] ; .dng [Adobe] ; .nef .nrw [Nikon] ; etc.)
    « RAW » est la désignation générique pour des fichiers issus d’appareils photo numériques ou de scanners. Un fichier « RAW » contient les données brutes du capteur et les paramètres nécessaires à sa transformation en un fichier image exploitable. Ce processus, appelé dérawtisation, est souvent comparé — improprement — au développement d’un film photographique.
    Il existe de nombreuses adaptations de ce format, selon les exigences des fabricants de matériel.
    Source : Wikipédia


Les formats de fichiers des images vectorielles
  • Adobe Illustrator (suffixe : .ai)
    Format natif d’Adobe Illustrator, logiciel de création graphique vectorielle développé par Adobe Systems.
    Source : Wikipédia

  • Scalable Vector Graphics (suffixe : .svg)
    Le Scalable Vector Graphics (graphique vectoriel adaptable) est un format de données basé sur XML, conçu pour décrire des ensembles d’objets vectoriels.
    Source : Wikipédia


Les formats de fichiers des logiciels de mise en page
  • InDesign Document (suffixe : .indd)
    Format natif d’Adobe InDesign, logiciel de PAO développé par Adobe Systems.
    Source : Wikipédia

  • InDesign Markup Language (suffixe : .idml)
    Le format InDesign Markup Language est un format balisé d’échange qui permet l’ouverture des documents conçu avec inDesign, indépendamment de la version utilisée.
    Il offre également, une certaine compatibilité avec le logiciel de mise en page Scribus.

  • QuarkXPress (suffixe : .qxp)
    Format natif de QuarkXPress, logiciel de PAO développé par Quark Inc.
    Source : Wikipédia

  • Scribus (suffixe : .sla)
    Basé sur XML, « SLA » est le format natif — et ouvert — de Scribus, logiciel de PAO Open Source, développé par The Scribus Team.
    Source : Wikipédia


Les formats de fichiers des langages de description de page
  • Encapsulated PostScript (suffixe : .eps)
    Encapsulated PostScript est un format ouvert créé par Adobe Systems en langage PostScript. Il permet de décrire des images qui peuvent être constituées d’objets vectoriels ou bitmap sans perte d’information. Très répandu dans les années 1990, le format « EPS » est aujourd’hui considéré comme obsolète.
    On lui préfère le format « PDF », plus polyvalent, qui ne nécessite pas l’usage de logiciels commerciaux pour en visualiser le contenu.
    Principalement utilisé par Illustrator, il est également supporté par Adobe Photoshop et inDesign.
    Source : Wikipédia

  • Portable Document Format (suffixe : .pdf)
    Portable Document Format est un langage de description de page présenté par la société Adobe Systems en 1992, et devenu une norme ISO en 2008.
    La spécificité du format « PDF » est de préserver la mise en page d’un document — polices de caractère, images, objets graphiques, etc. — telle qu’elle a été définie par son auteur, et cela quels que soient le logiciel, le système d’exploitation et l’ordinateur utilisés pour l’imprimer ou le visualiser.
    Source : Wikipédia

  • PostScript (suffixe : .ps)
    PostScript est un langage de description de page mis au point par Adobe. Il repose sur des formulations vectorielles de la plupart de ses éléments. Il sait aussi traiter les images matricielles (point par point).
    Ce langage inter plate-forme permet d’obtenir un fichier unique comportant tous les éléments décrivant la page (textes, images, polices, couleurs, etc.).
    PostScript est pratiquement devenu un standard, la plupart des imprimantes laser disposant d’un interpréteur, permettant de traiter directement un document décrit selon ce format.
    Sur les matériels non PostScript, un filtre logiciel est nécessaire en entrée, afin de convertir les données PostScript en données « raster », compréhensible par ces imprimantes.
    Le développement du PostScript est arrêté par Adobe depuis 2007, afin que « PDF » puisse prendre la relève.
    Source : Wikipédia


Billets connexes

Haut de page