Accueil>Introduction au text mining: Cours inter-semestre de l’Ecole doctorale de Sciences Po du 7 au 10 janvier 2020
21.10.2019
Introduction au text mining: Cours inter-semestre de l’Ecole doctorale de Sciences Po du 7 au 10 janvier 2020
Argumentaire
Le text mining (ou « fouille de textes » en français) désigne l’ensemble des méthodes informatisées permettant d’extraire et de quantifier des informations issues de documents textuels. Nous faisons du text mining une définition large en y incluant des outils de récupération de données en ligne, de nettoyage de textes mais aussi des outils théoriques pour un usage réflexif de ce type de données. Concernant l’analyse statistique textuelle, la même ouverture prévaut puisque nous aborderons à la fois les outils portant sur la dimension sémantique des textes (comme l’analyse factorielle) et ceux qui révèlent d’autres phénomènes sociaux, comme les relations entre individus ou l’action des institutions (lexicométrie simple, analyse de réseaux de citation ou de collaboration).
La souplesse du text mining en fait un outil adapté à de nombreuses questions de recherche. Il peut par exemple être mobilisé pour quantifier l’usage de certains termes dans des archives, pour comprendre l’évolution d’une jurisprudence, pour analyser les logiques d’action d’institutions, de groupes sociaux ou d’individus, ou pour étudier les argumentaires électoraux de partis politiques. Ces méthodes peuvent être appliquées à tous les types de textes, qu’ils soient nativement numériques (articles en ligne, textes publiés sur les réseaux sociaux) ou qu’ils aient été informatisés par la chercheuse ou le chercheur (archives, retranscription d’entretiens).
Le but de cette formation est de permettre à chacun·e d’acquérir les bases leur permettant de constituer une base de données textuelles, de la nettoyer et de procéder à plusieurs types d’analyse statistique. Pour stimuler l’imagination des participant·e·s, nous inviterons des chercheurs et chercheuses d’horizons disciplinaires divers présenter des travaux en cours ou achevés. Par ailleurs, nous prêterons une grande attention aux besoins spécifiques exprimés par les participant·e·s et consacrerons la dernière journée à la présentation et à la discussion de leurs projets de recherche, quel que soit leur état d’avancement.
Public visé (15-20 participant·e·s)
Cette formation est ouverte aux en priorité aux doctorant·e·s et étudiant·e·s en master recherche de Sciences Po. Nous demandons aux participant-e-s de se familiariser à la manipulation du logiciel R avant le début de la formation. Celles et ceux qui n’auraient pas encore utilisé ce logiciel peuvent se référer à des tutoriels en ligne comme celui proposé par Julien Barnier <https://quanti.hypotheses.org/1357/>. Pour mieux cerner les besoins et ajuster le contenu de la formation, nous demandons aux personnes intéressées de remplir ce formulaire en ligne <https://forms.gle/CyCf8CmdKnmgdmj69> avant le 5 novembre. Les réponses à ce questionnaire serviront aussi à sélectionner les personnes dans le cas où les demandes d’inscriptions dépasseraient le nombre de places disponibles.
Équipe de formation
Sebastian Billows est sociologue, chargé de recherche à l’INRA (IRISSO). Ses recherches portent sur le droit économique. Après une thèse sur l’encadrement juridique des relations entre la grande distribution et ses fournisseurs, il travaille aujourd’hui sur la diffusion de l’expertise économique dans le droit de la concurrence et sur la régulation des filières agroalimentaires. Email : sebastian.billows@inra.fr
Margot Delon est sociologue, chargée de recherche CNRS au Centre nantais de sociologie. Après une thèse sur les trajectoires sociorésidentielles des ancien·ne·s habitant·e·s des bidonvilles de Nanterre et Champigny-sur-Marne, elle travaille sur l’immobilier locatif en France. Email : margotdelon@gmail.com
Franziska Heimburger est maîtresse de conférences à Paris-Sorbonne (HDEA). Elle travaille sur les langues dans l’histoire, surtout en temps de conflit. Après un premier travail sur le fonctionnement de la coalition alliée pendant la Première Guerre mondiale, elle se tourne vers les conflits du 19e siècle et le développement des services de langue dans les armées et administrations au Royaume-Uni, en France et en Allemagne. Email : franziska.heimburger@sorbonne-universite.fr
Emilien Ruiz est Assistant Professor à Sciences Po (CHSP), en détachement de l’université de Lille (IRHiS). Il travaille sur la question du "gouvernement par les nombres", entre histoire des organisations et sociologie historique des pratiques de quantification. Email : emilien.ruiz@sciencespo.fr
Planning
Jour 1 : mardi 7 janvier 2020 de 9h30 à 17h30
Fondements théoriques, nettoyage des données et analyse lexicométrique simple
- Ce que le numérique fait aux sciences sociales : un tour d’horizon
- Concepts pour l’analyse textuelle : la méthode Alceste et la notion de « monde lexical »
- Transformer des textes en base de données
- Une première exploration statistique de sa base
Intervenante externe : Valérie Beaudoin, sociologue, Télécom ParisTech
Jour 2 : mercredi 8 janvier 2020 de 9h30 à 17h30
Analyse textuelle avancée
- Faire de l’analyse textuelle sous Iramuteq
- Des textes aux relations : l’analyse de réseau sur la base de données textuelles
- Autres méthodes : topic models, sentiment analysis…
Intervenante externe : Lisa Suckert, Max Planck Institute for the Study of Societies.
Jour 3 : jeudi 9 janvier 2020 de 9h30 à 17h30
Techniques avancées d’acquisition de textes sur le web
- Bases de code HTML
- Aspiration des données issues des réseaux sociaux (twitter etc.)
- Aspiration d’articles de presse ou d’articles scientifiques
Intervenant externe (à confirmer) : Pierre-Carl Langlais, chercheur post-doctorant du projet ANR Numapresse, Université Université Paul Valéry - Montpellier 3
Jour 4 : vendredi 10 janvier 2020 de 9h30 à 17h30
Présentation des recherches des participant·e·s
- Discussion collective des projets de recherche
- Exploration des données des participant·e·s et premières tentatives de traitements
Lieu : Salle du Conseil de l’Ecole doctorale (199 boulevard Saint-Germain)