publier

Comment élaborer un plan de gestion de données (PGD) ?

13 juillet 2022

De plus en plus souvent exigé dans les projets de recherche, le plan de gestion de données (PGD ou DMP pour Data Management Plan) est un outil qui permet de garantir l'intégrité scientifique de la recherche. Mais de quoi s’agit-il, et comment l’élaborer ?

Le plan de gestion des données : définition et objectifs

Un plan de gestion des données (PGD) est un document unique, formalisé mais évolutif qui accompagne le projet de recherche à toutes ses étapes. Il permet de consigner dans un document centralisé toutes les informations importantes sur les données d’un projet de recherche.

Il décrit la manière dont elles seront traitées au long de leur cycle de vie, de l’étape initiale de collecte ou de production, à l’étape finale de publication ou d’archivage, en passant par les différents stades de gestion proprement dite comme le classement, la structuration, le stockage, le traitement ou l’analyse à l’aide d’outils numériques…

Dans un contexte de généralisation du numérique au sein des activités de recherche, l’enjeu est de limiter les risques d’obsolescence technologique, de perte ou de gaspillage de ressources, afin de garantir que les données sous-jacentes aux résultats scientifiques pourront être effectivement diffusées, partagées et réutilisées, que ce soit au bénéfice d’autres recherches ou de la société tout entière.

Qu’entend-on par « données » et « jeu de données » ?

Les données sont tous les éléments observés, produits, collectés par le chercheur. Il peut s’agir de textes et de corpus de textes, d’images, de photos, de modèles numériques 3D, de données d’entraînement en intelligence artificielle, d’enregistrements audiovisuels, de données d’observation, de bases de données, etc. La notion de « données » recouvre également l’ensemble des codes sources, des méthodes et des protocoles qui seront utilisés pour présenter, analyser, instrumenter ou diffuser ces éléments qui sous-tendent la recherche, et peuvent servir de preuves pour les interprétations élaborées par les chercheurs.

Un « jeu de données » (dataset en anglais) peut être défini comme une collection de fichiers électroniques présentant une certaine « unité » et qui sont rassemblés pour former un tout cohérent. L’échelle à laquelle l’agrégation est réalisée ainsi que les critères utilisés sont laissés à l’appréciation des scientifiques. Ces critères peuvent en effet varier de manière importante selon les questions de recherche, la nature des données, les équipements utilisés, ou encore les réutilisations possibles.

Quelles questions faut-il se poser ?

Les données jouent en effet un rôle clé pour l’intégrité scientifique. Leur conservation sous une forme intelligible et exploitable numériquement requiert une planification d’actions concrètes. Le but d’un PGD est avant tout de faciliter et d’optimiser la gestion des données et du projet, en permettant l’anticipation des actions de structuration et de description.

Voici les questions fondamentales auxquelles doit répondre le PGD :

  • Quelles sont les données que je vais créer ou collecter durant le projet, principalement numériques ? De quelle nature sont-elles ? Pourrais-je les regrouper en jeux de données cohérents ?
  • Comment vais-je les organiser et les décrire ? Autrement dit, quels seront les formats, et à quoi ressembleront les métadonnées ?
  • Comment vais-je assurer la sécurité de ces différentes données ? Comment vais-je les stocker, et où ?
  • Quelle diffusion ai-je l’intention de leur donner ? Jusqu’à quel point les ouvrir à tous, et pourquoi ? Ai-je besoin de les garder à la fin du projet, de les archiver ? Et pendant combien de temps ? Quelle est la politique de mon établissement en la matière ?
  • Vais-je bien respecter toutes les règles d’éthique, y aura-t-il des données sensibles ?
  • Quelles ressources prévoir pour la mise en œuvre du plan (moyens financiers ou temps de travail des chercheurs et ingénieurs impliqués) ?

En répondant à ces questions, les scientifiques explicitent de manière synthétique les choix techniques, juridiques et organisationnels concernant les données qui seront produites par leur projet de recherche.

En pratique, comment faire ?

Qui fait quoi ?

Si les chercheurs et chercheuses ne savent pas exactement comment procéder, le PGD leur permet au moins de prendre conscience des problèmes qui vont se poser. Ils doivent prendre des décisions avant tout scientifiques.

Pour mieux connaître les formats, les outils, les possibilités de stockage et d’archivage, les chercheurs sont amenés à travailler avec des informaticiens, documentalistes, archivistes, juristes, éditeurs… qui peuvent participer à des degrés divers à l’élaboration du PGD et à sa mise à jour. Le PGD crée ainsi une vision commune au sein d’une équipe, et il facilite l’intégration de nouveaux collaborateurs. Il peut servir de document de référence pour transmettre de manière efficace des informations clé pour comprendre le socle technique du projet.

Il est utile d’avoir un « référent données » au sein du projet, et un responsable pour chaque jeu de données.

Au cours du projet de recherche, le PGD est actualisé en continu pour enregistrer les informations concrètes liées à la mise en œuvre des décisions, et pour s’adapter à la progression de la recherche. Au début du projet, sa fonction principale est de fournir un outil de pilotage et d’aide à la décision. À la fin du projet de recherche, le PGD s’est enrichi de toutes les informations concrètes sur ce qui a été fait. Il devient alors un élément essentiel pour comprendre le contexte de production des données et en constitue l’historique documenté. Il fournit ainsi les conditions nécessaires à la vérification de l’intégrité scientifique et à l’administration de la preuve.

Les politiques institutionnelles applicables aux données

Dans leurs activités liées au projet, les équipes de recherche doivent respecter des exigences en matière de Science ouverte. L’Agence nationale de la recherche (ANR), par exemple, expose les siennes sur son site. Les équipes partenaires d’un projet doivent également respecter les politiques particulières de leur(s) établissement(s) tutelle(s) en la matière ; il est ainsi utile de lire les textes du CNRS  : Feuille de route Science ouverte (18/11/2019) et Plan données de la recherche (16/11/2020). PSL expose ses principes dans sa Charte science ouverte (27/04/2020).

En général, en France comme à l’international, les projets doivent respecter 4 principes fondamentaux génériques rassemblés sous l’acronyme « FAIR », à savoir : les données doivent être Facilement trouvables, Accessibles, Interopérables et Réutilisables. Cela implique d’utiliser des formats ouverts et pérennes.

principes-fair
Principes Fair CC. BY-SA 4.0 SangyaPundir

En matière d'intégrité scientifique, l’obligation de produire un PGD est inscrite à l’article 3 du décret n° 2021-1572  du 3 décembre 2021 : « Les établissements publics et fondations reconnues d'utilité publique définissent une politique de conservation, de communication et de réutilisation des résultats bruts des travaux scientifiques menés en son sein. A cet effet, ils veillent à la mise en œuvre par leur personnel de plans de gestion de données et contribue aux infrastructures qui permettent la conservation, la communication et la réutilisation des données et des codes sources. ».

De fait, la plupart des financeurs demandent désormais aux porteurs de projets de joindre à leurs dossiers de candidature un plan de gestion de leurs données. Selon le degré de sensibilité des données (certaines données ne doivent pas être divulguées parce qu’elles concernent des personnes, ou, par exemple, des brevets), on applique le principe « aussi ouvert que possible, aussi fermé que nécessaire ». On peut aussi choisir des licences plus ou moins ouvertes, l’ouverture totale n’est pas obligatoire. Les restrictions à l’ouverture des données ou les délais d’ouverture (embargos) doivent être expliqués ou justifiés dans le PGD.

Doctorant ou chercheur confirmé, où trouver de l’aide ? 

Le site Ouvrir la Science, mis en place par le Ministère de l’Enseignement supérieur et de la Recherche, fournit un bon point d'entrée. Le site propose de nombreuses ressources dont un guide pratique téléchargeable destiné aux doctorants, le passeport pour la science ouverte.

Différents services ont été créés pour assister les chercheurs dans la rédaction de plans de gestion de données. Le portail OPIDoR fournit par exemple aux chercheurs un outil collaboratif permettant de rédiger des PGD conformes aux préconisations des financeurs. Le service de formation à distance DoRANum propose plusieurs ressources en ligne dont une section consacrée au PGD.

Dans les établissements, les services d’accompagnement à la recherche (services de valorisation, structures documentaires, services juridiques) sont disponibles pour aider à la rédaction de PGD. Un nouvel écosystème est également en cours de construction autour de la plateforme Recherche data Gouv.

Certains PGD ont été primés, vous pouvez vous en inspirer. Vous les retrouverez ici

Merci à Emmanuelle Morlock (laboratoire HiSoMA, CNRS, Lyon). Avec son autorisation, cette page reprend largement l’introduction du PGD du projet Biblissima+, dont elle est l’auteur.

Pour aller plus loin

Voir l’article de Trevor Owens :  Defining Data for Humanists: Text, Artifact, Information or Evidence?  sur le site du Journal of Digital Humanities.

BORGMAN, Christine L. : Qu’est-ce que le travail scientifique des données ? Big data, little data, no data. Nouvelle édition [en ligne]. Marseille : OpenEdition Press, 2020. ISBN : 9791036565410. DOI : https://doi.org/10.4000/books.oep.14692.