Aller au contenu principal

Gestion des données de recherche: Données : types et formats

Ce guide propose des informations et ressources sur la gestion des données de recherche (GDR).

Données : types et formats

 

Les données se présentent sous différentes natures, types et supports selon les projets de recherche et les étapes du projet (création, exploitation, analyse, traitement). Les fichiers numériques peuvent aussi prendre divers formats. Les métadonnées, quant à elles, sont tout simplement des données qui décrivent des données. Il est important d'identifier les types et formats des données afin de bien les gérer tout au long du processus de la recherche et après celui-ci. 

Les données peuvent être de différentes nature, par exemple: qualitatives, quantitatives, statistiques, brutes, dérivées, formatées, nettoyées, primaires, secondaires, traitées, etc.

 

Types

Les types les plus courants sont : 

  • Fichiers de texte;
  • Tableurs de données, bases de données;
  • Enregistrements audio;
  • Code source;
  • Données géospatiales;
  • Enregistrement vidéo;
  • Images, photographies;
  • etc.

 

Source : DORANum

 

 

Formats

Un format de fichier est un moyen d'encoder des informations dans un fichier informatique afin qu'il puisse être reconnu par une application et qu'il soit possible d'y accéder. Il est indiqué par l'extension du nom de fichier (généralement un point suivi de trois lettres telles que .txt, .doc, .jpg, .mov) et permet à l'ordinateur de reconnaître ce qu'un document contient, par exemple du texte ou une image. 

Le format du fichier influence l'accessibilité au contenu du fichier et le stockage à long terme de ce contenu, car les logiciels et la technologie de stockage des données évoluent rapidement et les fichiers peuvent facilement devenir obsolètes ou difficiles d'accès (source : The University of British Colombia).

Il est donc essentiel de réfléchir au format initial des données et aux formats utilisés pour la conservation, car il est possible de convertir les fichiers d’un format vers un autre, mais il peut en résulter des pertes d’informations. 

 

Il existe deux familles de format de fichiers : le format ouvert et le format fermé ou propriétaire.

  1. Format ouvert (format libre)
    Il est indépendant d'un logiciel spécifique. Il est donc a privilégié pour un accès large public et pour la pérennité. 
    Il permet d'augmenter votre capacité à ouvrir et à lire vos fichiers à long terme et de rendre vos données utilisables et accessibles à plus de chercheurs et chercheuses immédiatement. 
  2. Format fermé (format propriétaire)
    Rattaché à un logiciel spécifique d'un fournisseur, qui doit être utilisé pour lire le fichier et le modifier. Les spécifications de fichier ne sont pas librement disponibles, donc, lorsque le logiciel n'est plus pris en charge, les fichiers dans ce format sont généralement illisibles. 

 

Exemples de formats ouverts :

  • Base de données : XML, CSV
  • Image : JPG, PNG, PDF, TIFF, BMP
  • Son : MP3, FLAC
  • Texte : TXT, CSV, PDF/A, ASCII, UTF-8
  • Vidéo : MPG, MOV, AVI
  • Feuille de calcul : CSV
  • Image médicale : DICOM

 


Liens complémentaires