Accueil>Partage des données de la recherche : enjeux et obstacles - Entretien de Célia Bouchet (CEET, CNAM) avec le CRIS et le LIEPP

05.02.2024

Partage des données de la recherche : enjeux et obstacles - Entretien de Célia Bouchet (CEET, CNAM) avec le CRIS et le LIEPP

La question du partage des données de la recherche est depuis plusieurs années devenue centrale dans le monde académique. Pour encourager la transparence, l’intégrité scientifique, la mise en partage et la ré-employabilité des données, les chercheur‧es sont encouragé‧es à rendre accessibles les données de leurs recherches. Mais quelles sont les conséquences de cette pratique ? Comment la mettre en place concrètement ? 

Célia Bouchet est post-doctorante au CEET (Centre d'études de l'emploi et du travail) du CNAM. Ses recherches, menées notamment au CRIS et au LIEPP (au sein de l'axe Discriminations et Politiques catégorielles), portent sur les mesures et les mécanismes des inégalités sociales, notamment celles liées au handicap et au genre. Depuis la soutenance de sa thèse, elle a largement contribué à disséminer ses résultats de recherche, en facilitant l'accès à ses données. Elle est lauréate du Prix de thèse du Défenseur des Droits 2023 et du Prix science ouverte des données de la recherche 2023, remis par le Ministère de l’Enseignement Supérieur et de la Recherche. 

Aviez-vous dès le départ de votre travail de thèse l'idée de conserver, documenter, permettre une réutilisation de vos données ?

Non, je pense que je n'ai pas eu cette idée tout de suite parce que je n’avais pas vraiment de modèles d’ouvertures de données de thèse à disposition. Je n’ai pas été formée à la mise à disposition des données lors de mon master. J’avais plutôt des réflexes de protection des données allant à l’encontre d’une ouverture : protéger l’anonymat des personnes rencontrées en entretien, respecter l’engagement de non-partage des données passé avec l’Adisp (Archives de Données Issues de la Statistique Publique, qui gère la mise à disposition des enquêtes de la statistique publique). Cela étant, c’est une idée qui est arrivée tout de même assez rapidement, au bout d’un an de thèse environ, par deux intermédiaires différents. D’abord, j’ai participé à une formation de l'École de la recherche sur la gestion des données de la recherche, où cette question du devenir des données à l’issue de la recherche était évoquée. Ensuite, au moment du lancement de ma campagne d’entretiens quelques mois plus tard, ma directrice de thèse, Anne Revillard, m’a conseillé de profiter de la fiche d’information que je comptais distribuer aux personnes interrogées afin d’obtenir leur accord explicite pour que d’autres chercheur‧es puissent réutiliser les entretiens. Ces deux influences ont eu un rôle important.

Est-ce que du personnel support vous a accompagnée dans la gestion de ces données ? 

J’ai pu m’appuyer sur plusieurs collègues des équipes de soutien à la recherche. Cyril Heude, data librarian à Sciences Po, s’est rendu disponible pour créer mon compte sur Data Sciences Po, répondre à mes questions, émettre des suggestions, et publiciser mes jeux de données avec Guillaume Garcia, ingénieur de recherche au CDSP de Sciences Po. Paul Colin, anciennement responsable de la gestion et de l’ouverture des données pour le PPR Autonomie, m’a aussi conseillé lorsque j'ai commencé à rédiger un article méthodologique sur mon travail d’ouverture des données. Enfin, deux déléguées à la protection des données de Sciences Po, Marion Lehmans puis Nawale Lamrini, m’ont accompagnée pour garantir la conformité de ma recherche doctorale et du processus d’auto-dépôt au cadre réglementaire.

Légende: Page d’accueil de data.sciencespo, l’entrepôt de données de Sciences Po

Aujourd’hui, comment gérez-vous les données de recherche que vous produisez ? 

J’ai développé le réflexe d’ouvrir mes données, mais aussi mes productions scientifiques au sens large. Par exemple, j'ai créé un carnet Hypothèses où j’ai mis à disposition les annexes électroniques de ma thèse, les diaporamas que j'utilise pour mes présentations, mes supports d'enseignement, etc. Sur ce point, d’ailleurs, j'ai pu m’inspirer des pratiques de plusieurs collègues du CRIS dont j’avais déjà consulté les sites personnels, notamment Anne Revillard et Olivier Godechot. Maintenant, j’ai aussi pu constater que, selon les contextes de recherche, il est plus ou moins facile de recevoir les autorisations nécessaires pour ouvrir des données—même pseudonymisées. Par exemple, lorsque l'enquête se fait au sein d’une organisation, la simple permission de publier les résultats de la recherche peut faire l’objet de négociations… et, dans ce cas, l’ouverture des données récoltées est une perspective assez lointaine.

Légende: Page d’accueil du carnet Hypotheses de Célia Bouchet. 
URL: https://celiabouchet.hypotheses.org/ 

En tant que jeune chercheuse, comment vivez-vous le contexte croissant d’incitation à l’ouverture des données de la recherche ? 

Je distingue l’objectif d’ouverture des données et la façon dont il est mis en œuvre. L’objectif, je l’approuve et je m’y reconnais. J’estime beaucoup la “culture libre”, d’ailleurs j’utilise principalement des logiciels libres au quotidien. Il y a aussi des raisons qui, peut-être, sont plus spécifiques à mon sujet et mon terrain de recherche. Les études sur le handicap sont encore un champ de recherche assez minoritaire, et il me tient d'autant plus à cœur de faciliter la diffusion de connaissances sur le sujet. J’y vois aussi un enjeu déontologique, car, lorsque j'ai demandé aux personnes rencontrées lors de mon enquête qualitative la permission de verser les contenus pseudonymisés de leur entretien sur un entrepôt pour que d’autres chercheur‧es puissent les utiliser dans leurs travaux, les réactions ont très souvent été enthousiastes. Plusieurs des personnes rencontrées avaient par exemple la conviction que la recherche était importante pour informer les politiques publiques et les faire évoluer. Dans cette perspective, l'idée que leur récit puisse resservir dans d’autres recherches leur permettait de contribuer d’autant plus à un changement social positif. 

Quels aspects vous semblent poser problème ?

Comme d'autres collègues, j'ai de vraies inquiétudes sur la façon dont l’ouverture des données est organisée. Dans le fonctionnement actuel, les jeunes chercheur‧es sont particulièrement visé‧es par les incitations à ouvrir des données, sans que cette activité soit vraiment discutée collectivement au sein de la communauté de recherche en sciences sociales, et sans que des moyens économiques et humains suffisants y soient alloués. Je l’ai dit, j'ai eu la chance d’avoir l’appui de plusieurs collègues, et j’en éprouve beaucoup de gratitude mais cela n’a pas toujours été suffisant. Il me semble qu’il y aurait besoin de réflexions plus collectives et de ressources matérielles plus conséquentes, si on veut éviter que la politique d’ouverture des données ne repose sur les chercheur‧es les plus précaires.

Est-il chronophage pour vous de préparer ces données ? Comment articulez-vous ce travail avec votre temps de recherche ?

C’est un travail d’une ampleur que je n’imaginais pas. Pour contextualiser, j’ai mis en ligne deux jeux de données : un jeu centré sur les matériaux qualitatifs de ma thèse, notamment les transcriptions d’entretiens, la fiche d’information que j’ai transmise aux personnes rencontrées, la grille d’entretien, etc ; et un jeu centré sur une exploitation statistique de l’Enquête emploi en continu, réalisée dans le cadre du volet quantitatif de ma thèse. Pour le volet qualitatif, comme je récoltais mes propres données, il a fallu beaucoup d’anticipation et de formalisation. Pour le volet quantitatif, j’ai pris la décision plus tard et j’avais davantage de marge de manœuvre. Mais dans les deux cas, cela impliquait un gros travail : changer tous les noms propres sur 1400 pages d’entretiens (pour une pseudonymisation renforcée) ; trier et nettoyer mes scripts de code, puis ajouter des explications didactiques au fur et à mesure ; déterminer les autres documents méthodologiques pertinents et les mettre en forme ; documenter tout ce processus dans des fichiers Read-Me… Cela m’a pris plusieurs centaines d’heures au total. Comme j’avais un contrat de recherche en journée, sur un projet différent, je prenais ce temps sur mes pauses déjeuners, mes soirées, mes week-ends. Je l’ai vécu comme long et fastidieux, et je n’encouragerais pas nécessairement quelqu’un d’autre à se lancer dans ces conditions.

Avez-vous été confrontée à d’autres obstacles liés au partage de données ?

Oui, je pense à deux types d’obstacles. Premièrement, j’ai eu des incertitudes juridiques sur le périmètre de ce que j’avais le droit de partager. Concernant le jeu qualitatif, comme je ne précisais pas aux personnes enquêtées à quoi correspondait “le contenu de l’entretien” que j’allais déposer sur l’entrepôt, je ne savais pas si je devais me limiter à la transcription de l’enregistrement ou si je pouvais inclure les notes d’observations que j’avais prises pendant l’entretien. Dans le cas du jeu quantitatif, comme mes statistiques sont calculées à partir d’une enquête de l’Insee, je ne savais pas si j’avais les droits de propriété suffisants pour décider du versement. J’ai eu des difficultés à accéder à ces renseignements : les démarches d’ouverture des données étant relativement nouvelles, les personnes ressources que j’ai contactées étaient un peu dans le flou elles aussi. Sur un deuxième plan, j’ai aussi eu des questionnements scientifiques, lors du processus de transformation des données. Par exemple, au cours de la pseudonymisation des transcriptions d’entretien, je me suis demandé par quoi substituer les noms propres. Typiquement, pour un nom de ville, j’avais l’option de renseigner à la place le département, la taille de la ville, le niveau de vie moyen… Cela posait un certain nombre de dilemmes, sur les indicateurs les plus importants à conserver et la délimitation des catégories (à partir de quel nombre d’habitants parler de “grande ville”?) Là encore, le manque de protocole établi me laissait un peu seule face à mes choix.

Légende: Tableau des choix de remplacements de noms propres, dans le document 0-README-Guide du jeu de données qualitatif. DOI: 10.21410/7E4/IIQYAR 

Vos jeux de données facilitent-ils d'après vous la valorisation de vos travaux ?

Oui, mais de façon indirecte. J’ai été frappée par l’intérêt qu’a suscité mon travail d’auto-dépôt, davantage peut-être que les données déposées. J’ai été invitée à plusieurs reprises pour présenter ce processus d’ouverture des données : lors de la semaine DataSHS 2022, dans le cadre d’un séminaire CIVICA Open Science… J’ai aussi publié un article méthodologique dans la revue Genèses, où j’analyse mon expérience d’auto-dépôt. Ce sont de belles opportunités. En revanche, je n’ai pas connaissance de projets de recherche en cours qui envisagent de réutiliser mes données. Et je peux le comprendre, car on n’apprend pas vraiment à utiliser ce type de sources lors des formations en sciences sociales.

Vous êtes lauréate du Prix science ouverte des données de la recherche 2023, pour votre Projet « EHDS: Enquête Handicap et destinées sociales ». Qu’est-ce que le jury a récompensé selon vous ? 

Je pense que ma démarche a une double originalité à laquelle le jury a été sensible. D’un côté, il y a la mise à disposition de données variées et nombreuses sur une thématique encore trop peu couverte, le handicap. D’un autre côté, il y a un effort pour décrire et analyser le processus d’auto-dépôt en sciences sociales d’un point de vue de chercheuse, dans un contexte où l’essentiel du travail d’ouverture des données est accompli par les équipes de soutien à la recherche. Le dialogue avec les équipes de Sciences Po, notamment Cyril Heude, Guillaume Garcia et Sophie Forcadell, m’a été très précieux pour mettre l’accent sur ces deux apports dans ma candidature au prix. En un sens, la boucle est bouclée : ce prix souligne que, même dans le cadre d’un auto-dépôt, la gestion des données ne concerne pas qu’une seule personne mais appelle à des réflexions collectives.

Légende: Couverture de deux numéros de revues récents abordant l’ouverture des données de la recherche.

Tracés, 2019, numéro spécial 19, “Les sciences humaines et sociales au travail (ii): Que faire des données de la recherche ?” DOI: 10.4000/traces.10518

Genèses, 2022, numéro 129, “Le procès des données”. DOI: 10.3917/gen.129.0003

Propos recueillis par le Centre de Recherche sur les Inégalités Sociales et le Laboratoire Interdisciplinaire d'Evaluation des Politiques Publiques de Sciences Po. 

EN SAVOIR PLUS :