L’ouverture des données libres (open data) impose, implicitement, de mettre à disposition des données de qualité.
En effet d’après l’enquête menée par Etalab (département de la direction interministérielle du numérique), les usagers déplorent le manque de qualité des données.
Qu’est ce que la qualité de la donnée ? Nécessite-t-elle qu’on lui accorde tant d’importance ?
Une donnée de qualité nous permet, en tant qu’utilisateur, d’obtenir des données accessibles, à jour, complètes et pouvant répondre à notre problématique rapidement. Pour le producteur, la qualité de la donnée est un réel enjeu puisqu’il représente l’organisation productrice de données ( collectivité locale, établissement public…).
La qualité de la donnée repose tant sur le format de fichier, la structure du fichier le contenu de la donnée, que les documents joints.
Le format de fichier consiste à choisir un format compatible et facilement l’ensemble des machines et des outils informatiques. data.gouv.fr (plateforme développé par Etalab) préconise l’utilisation du format CSV, effectivement, ce dernier peut être facilement ouvert et exploité par l’ensemble des machines et logiciels. Dans le cas de données géographiques, nous pouvons également opter pour des formats plus adaptés.
La structure du fichier est un aspect parfois négligé et/ou peut être source de difficultés. Un fichier pour pouvoir être compris tant par la machine que par l’usager, doit comporter un nom explicite tout en étant concis et en respectant quelques règles (pas d’accent, privilégier les sous-tirets dit underscore au détriment des espaces…) afin de faciliter l’interprétation et la lecture du fichier par la machine.
Quant au contenu, il s’agirait notamment d’avoir des données complètes, respectant certaines règles internes logiques comme suivre la même logique de syntaxe (éviter dans un même champ d’avoir des informations en majuscules et en minuscules…) .
Enfin, une donnée de qualité s’accompagne de métadonnées, qui sont essentielles à la compréhension, d’une veille quant à la fraîcheur des données mais surtout d’un accompagnement et d’une sensibilisation des producteurs de données.
Dans la même thématique vous pouvez assister à la conférence de Cathy Bourgeois et Agnès Nebout à propos de la gouvernance de la donnée lors du live SIG 2021 qui se déroulera en ligne du 11 au 15 octobre : [Live] SIG 2021 – Programme – Vue détaillée (esrifrance.fr)
https://www.data.gouv.fr/fr/posts/nos-reflexions-sur-la-qualite-des-donnees/
https://www.sigtv.fr/CLUB-SIG-replay-de-l-emission-du-vendredi-16-octobre-en-direct-de-SIG-2020_a1255.html