Accueil>Expertises>Préparation de données

Préparation de données

Le CDSP est un centre expert dans le domaine de la préparation des données d’enquêtes en vue de leur diffusion : anonymisation, appariements, redressement de la non-réponse et calcul de pondérations.

L’anonymisation et la protection des données

Expert en diffusion de données dans le respect de la législation en vigueur, le CDSP a mis en place des mesures de protection des chercheurs et des interviewés, tout en préservant la richesse des données. Il respecte les obligations de la loi informatique et libertés, le droit d’auteur, la loi sur le secret statistique et le code du patrimoine pour la communication d’archives publiques. Ces questions d’équilibre entre considérations scientifiques et juridiques sont discutées avec des juristes et des comités d’experts pertinents pour mettre en place les procédures adéquates. Par ailleurs, les obligations de respect de l’intégrité intellectuelle, de citation et de confidentialité sont garanties par des documents juridiques que le CDSP a mis en place comme par exemple les contrats de dépôts des enquêtes.

Vérification de la cohérence des données

Les ingénieurs du CDSP ont également des compétences pointues en apurement de données. Le CDSP assure ainsi le traitement des données françaises de l’Enquête sociale européenne (ESS). En plus de la collecte, il s’agit de vérifier rigoureusement la cohérence des données en lien avec la coordination européenne d’ESS. Ces données sont ensuite déposées au sein de Sikt - Norwegian Agency for Shared Services in Education and Research, qui les documente et les diffuse.

Concernant les données produites ou déposées au CDSP par des chercheurs et/ou institutions externes, plusieurs opérations sont réalisées avant d’enrichir les fichiers par des métadonnées Data Documentation Initiative (DDI). La qualité des données (cohérence, valeurs manquantes, etc.) et des matériaux les accompagnant (questionnaire, grilles de codage, rapports, etc.) est vérifiée, puis les recodages ou corrections nécessaires sont réalisés. Les ingénieurs du CDSP échangent avec les chercheurs et les équipes déposantes tout au long de ce processus.

Ces données sont ensuite documentées et diffusées par le CDSP.

Par ailleurs, les ingénieurs du CDSP convertissent les fichiers en plusieurs formats, dont au moins un en format libre pour leur diffusion et préservation, et les nomment en utilisant les recommandations en vigueur au sein de la communauté des professionnels des données de la recherche.

Appariements et calcul des pondérations

Le CDSP a aussi développé une expertise en appariements de données et correction de la non réponse. Les données collectées dans le cadre du dispositif ELIPSS sont ainsi systématiquement enrichies de variables supplémentaires issues de l’enquête annuelle d’ELIPSS. Cette enquête est spécialement conçue sur la base de consultations avec des partenaires sociaux et des utilisateurs des données afin de fournir un ensemble d’informations clés pour la recherche en SHS. Grâce à sa répétition périodique, la non-réponse peut être corrigée par imputation, les informations manquantes étant remplacées par les informations collectées lors d’une précédente édition. Cette opération contribue à réduire très largement les  données manquantes.

De plus, les ingénieurs du CDSP ont développé des méthodes de calcul de différents types de pondérations destinées à redresser la non-réponse à chaque enquête du panel ELIPSS. Pour cela, le CDSP collabore de longue date avec des experts de l’Insee et de l’INED. En parallèle, les ingénieurs du centre sont toujours à la recherche de solutions innovantes, les plus à même de relever les  défis liés au vieillissement de l’échantillon constitutif du panel et à son attrition.