Accueil>Expertises>Diffusion et préservation

Diffusion et préservation

Centre de ressources pour la recherche depuis plus de 15 ans, le CDSP a acquis une expertise reconnue en termes de diffusion de données ; celles-ci sont partagées de manière sécurisée et avec un référencement de qualité dans le respect du standard OAIS (Open Archival Information System). Parallèlement, le CDSP a également développé une expertise en construction et gestion de plateformes de données respectant les principes FAIR (Findable, Accessible, Interoperable, Reusable).

Construction de plateformes de diffusion et préservation de données

Expert en construction de plateformes de diffusion et de préservation, le CDSP a mené de nombreux projets de ce type. Dès 2006, il met en place l’un des premiers entrepôts de données quantitatives Nesstar en France. D’autres réalisations suivent : la base de questions Quetelet-PROGEDO (2011), la plateforme de valorisation des données qualitatives beQuali (2016), le catalogue ArchiPolis, premier entrepôt Dataverse en France (2017), la base de questions Colectica (2020) et l’entrepôt data.sciencespo.fr (2020).

Toutes ces plateformes ont été déployées pour assurer une richesse fonctionnelle aux utilisateurs, ainsi que dans la perspective de préserver les données et d'optimiser leur référencement sur Internet. 

Gestion d’entrepôts de données

L'hébergement de l'entrepôt data.sciencespo.fr est placé sous la responsabilité conjointe du CDSP et de la DSI de Sciences Po, qui travaillent en concertation pour assurer dans le temps un service de diffusion à la hauteur des enjeux des données de la recherche et minimiser les temps d'indisponibilité inévitables pour une telle infrastructure. Les ingénieurs de la DSI assurent en particulier les sauvegardes, le monitoring du service, la reprise en cas de panne et les montées de version de l'application Dataverse. Les ingénieurs du CDSP assurent la veille technologique, déjà mentionnée, et la gestion de l’infrastructure.

Protocoles d’échanges de métadonnées

L'entrepôt data.sciencespo.fr a été conçu pour mettre à disposition des données selon le protocole international OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting). Cela permet d'accroître la visibilité des enquêtes, les métadonnées étant interrogées par de multiples plateformes. 

Les métadonnées du CDSP sont ainsi moissonnées par plusieurs plateformes de référence françaises et internationales avec lesquelles le centre collabore pour assurer ce référencement. Parmi ces plateformes : CESSDA Data Catalogue, ISIDORE, OpenAire.

Veille technologique liée aux entrepôts de données

Les ingénieurs du CDSP assurent la veille concernant la plateforme open-source Dataverse qui est à la base de l’entrepôt data.sciencespo.fr, en cohérence avec les principes TRUST (Transparence, Responsabilité, priorité aux Utilisateurs et Technologie in Lin, D., Crabtree, J., Dillo, I. et al. The TRUST Principles for digital repositories. Sci Data 7, 144 (2020). https://doi.org/10.1038/s41597-020-0486-7).

Identification des données

Le CDSP a une expertise en ce qui concerne la gestion des identifiants pérennes, notamment des DOI. Les références diffusées par le centre sont toutes dotées d'un identifiant pérenne de ce type. Il s’agit d'une information essentielle qui garantit que les jeux de données pourront être trouvés, réutilisés et cités précisément, et pour longtemps.

(crédits : CDSP)

Formats et nommage de fichiers

Le CDSP diffuse les fichiers de données dans des formats couramment utilisés par la communauté des utilisateurs secondaires (par exemple, SAS, SPSS, STATA, CSV dans le cas des enquêtes quantitatives). Pour garantir la préservation des enquêtes, un format libre est en outre toujours proposé. 

Lors de la diffusion de ses fichiers, les ingénieurs du CDSP renseignent sur data.sciencespo.fr des métadonnées supplémentaires qui fournissent à l’utilisateur une indication rapide du type de document diffusé (sous la forme d'une étiquette libellée, par exemple : Données, Rapport…). 

Pour le nommage des fichiers, le CDSP respecte les recommandations nationales et internationales, notamment celles de l'INIST (Institut de l'Information Scientifique et Technique) du CNRS et celle de la bibliotèque de Stanford.