Mené en collaboration entre le Centre d’histoire et le médialab, RICardo (Research on International Commerce) est un projet consacré au commerce entre les nations depuis les débuts de la révolution industrielle jusqu’à la veille de la Seconde Guerre mondiale (1800/30 – 1938). Concrétisé par un site web, il propose une base de données, un outil de visualisation, son code source et les métadonnées.
Béatrice Dedinger, historienne économiste, et Paul Girard , ingénieur de recherche, tous deux à la tête du projet, reviennent sur ses grandes lignes et ses apports.
Comment est né le projet de construire RICardo ?
Béatrice Dedinger : L’idée est née au début des années 2000 pour répondre aux besoins des historiens économistes travaillant sur la mondialisation commerciale. À l’époque, lorsqu’un chercheur avait besoin de données pour ses travaux, il devait construire sa propre base et refaisait bien souvent un travail déjà accompli par un autre chercheur. Non seulement cette façon de faire était peu rationnelle, mais les bases de données restaient limitées d’un point de vue spatial et temporel. L’objectif initial était donc de créer une base de données la plus exhaustive possible et de la mettre à la libre disposition de tous.
Cela a pris beaucoup de temps et le projet a connu bien des péripéties, il a même été suspendu pendant un temps, faute de moyens. Tant et si bien que lorsque j’ai pu le reprendre, en 2012, la révolution numérique avait ouvert de nouveaux horizons et le médialab avait été créé.
Paul Girard : J’ai été mis en contact avec Béatrice par un chercheur, Guillaume Daudin, avec qui je concevais un projet touchant également à l’histoire du commerce international (TOFLIT18). Il m’a présenté Béatrice en me disant qu’elle souhaitait mettre en ligne une base de données. En réalité, nous avons fait bien plus que créer quelques pages web. J’ai proposé à Béatrice de créer un véritable outil qui permette d’explorer les données, démontrer visuellement l’originalité et la richesse de la base.
Béatrice : Il a fallu inventer, innover, car aucun produit de la sorte n’existait. Six années supplémentaires de travail et l’aide financière du Scientific Advisory Board de Sciences Po ont été nécessaires pour finaliser la base de données et créer l’outil de visualisation. En décembre 2017, bicentenaire de la parution des Principes de l’économie politique et de l’impôt de David Ricardo, la base de données RICardo a été ouverte au public.
Paul : En effet, au médialab nous sommes attachés aux principes d’une recherche ouverte et tenons à ce que tout un chacun puisse bénéficier de nos travaux : l’outil est en accès libre en ligne, et le code source du logiciel de visualisation ainsi que toutes les données sources et scripts de nettoyage et agrégation sont eux accessibles depuis une plateforme de partage de fichiers versionnés github. Et surtout, cette transparence permet aux utilisateurs de vérifier notre travail !
Quelles sont les données que l’on peut trouver dans la base ?
Paul : On trouve exactement 396.062 lignes décrivant par année les montants en Livre Sterling des imports et/ou exports entre les pays du monde entre 1787 et 1938.
Béatrice : la base RICardo décrit, sur une période de plus de cent ans, la distribution géographique du commerce des pays mais elle ne contient pas de données par produits. Ces dernières nous sont régulièrement demandées mais il faut savoir que ce que nous proposons est déjà considérable car les plus de dix ans de travail que nous y avons consacré ont permis de construire une base très solide. Pour y aboutir, il a fallu accomplir de très nombreuses opérations : trouver et numériser les archives ; transcrire les données dans des tableurs; les convertir dans une unité commune car elles étaient exprimées en différentes monnaies ; il a donc fallu créer une base de taux de change. Nous avons aussi homogénéisé les noms des entités commerçantes exprimés en différentes langues et qui ne sont pas seulement des pays mais peuvent être des ports, des zones géographiques ou des groupes de pays. Enfin nous avons testé et corrigé les données. Ajoutons que ces données permettent déjà de traiter de nombreuses questions relatives à la mondialisation du commerce des biens : mesure du phénomène, causes, conséquences.
Pour en revenir au contenu de la base, celle-ci s’arrête à la Seconde Guerre Mondiale car la période suivante est couverte par les bases des Nations-Unies et du FMI.
D’un point de vue géographique, elle répertorie les données de 120 pays bien que ce nombre ne soit pas constant sur toute la période, faute d’accès aux sources, d’intégration de nouvelles données, ou de nettoyage des données. Ainsi, le commerce bilatéral de la France est couvert de 1787 à 1938, celui de la Chine de 1868 à 1938, celui de la Tanzanie actuelle à partir de 1900 seulement.
L’autre apport de RICardo ce sont les séries de commerce total (total des exportations et des importations de chaque pays) qui permettent des estimations historiques du commerce mondial. Grâce au site, on peut comparer ces estimations à celles de deux historiens, Federico et Tena, dont le travail est aujourd’hui une référence.
Vous êtes tous deux impliqués dans le projet mais travaillez dans des laboratoires différents. Pourquoi une telle collaboration, quels sont les apports du médialab et du Centre d’histoire ?
Béatrice : Sans cette collaboration, le projet n’aurait pas abouti. Au Centre d’histoire nous développons une expertise en matière de production de données historiques pour chercheurs et doctorants. Le médialab, de son côté, a été créé pour aider les chercheurs en sciences humaines et sociales à tirer le meilleur profit des masses de données que la numérisation permet d’accumuler. Ces deux missions sont tout à fait complémentaires. Quand j’ai contacté Paul, j’avais des idées générales sur l’utilisation qui pouvait être faite de la masse de données dont je disposais, mais je n’avais ni les compétences ni connaissance des enjeux liés à l’exploration visuelle.
Paul : C’est ce qui m’a intéressé dans le projet. Quand Béatrice me l’a présenté, je travaillais sur l’apport des explorations visuelles dans l’exploitation de données pour la recherche. Pour RICardo, j’ai pu mettre en place une méthode développée au médialab, appelée DATASCAPE. Avec les DATASCAPE, on s’intéresse à l’exploration de données non seulement comme outil d’analyse ou de valorisation mais aussi comme méthode de construction de corpus de données. En effet créer une exploration visuelle de données efficace demande de penser dans un même temps la structuration des données, les méthodes d’agrégation et les formes de représentation visuelle. Tout ça requiert de croiser en permanence les points de vue entre design, sciences des données et sciences sociales.
Béatrice : D’ailleurs, si notre duo constitue le noyau dur du projet, nous avons fait appel tout au long de ces années à d’autres historiens, designers et développeurs, pour nous aider à traiter de nombreuses questions liées au projet comme le concept du site ou encore les différentes visualisations.
Concrètement, comment peut-on explorer les données de la base ?
Paul : ‘Explorer’ est le terme qui convient. En effet, le but du projet n’est pas seulement de permettre de répondre à une question de recherche spécifique, mais aussi d’offrir de nouveaux moyens pour tester des questions déjà posées, d’en faire émerger de nouvelles et d’ouvrir ces données à un public plus large, et notamment scolaire.
Béatrice : Le site internet a été créé pour faciliter l’exploration des données grâce à un rendu visuel immédiat. Notre premier objectif a été de créer des visualisations des données du commerce proprement dites.
Trois niveaux d’agrégation progressifs ont été retenus :
La première vue offre un point de vue global sur l’évolution du commerce des pays au niveau mondial en ne retenant que les données de commerce total. L’utilisateur peut visualiser l’évolution du commerce mondial et de la part qu’y occupent les pays. Ces données permettent notamment de calculer des indicateurs de mondialisation.
La deuxième vue donne une représentation de l’évolution du commerce bilatéral d’un pays sélectionné sur une période choisie. En un clic, on peut voir, par exemple, avec qui et dans quelles proportions commerçait le Chili entre 1844 et 1938. C’est le genre de données que les économistes utilisent dans des modèles qui analysent les causes de la mondialisation.
La troisième vue s’intéresse au niveau bilatéral où l’on peut suivre l’évolution du commerce entre deux pays sur une période choisie. L’intérêt de cette vue va au-delà de la description des flux commerciaux bilatéraux. Elle ouvre sur un pan de l’histoire du commerce qui a été peu creusé jusqu’à maintenant et qui concerne la fiabilité des statistiques commerciales. En comparant les deux valeurs d’un même flux commercial enregistré en tant qu’exportation par un pays et en tant qu’importation par l’autre, la vue bilatérale montre les incohérences des statistiques de deux pays sur un même phénomène. Ces divergences illustrent la complexité du travail d’interprétation des données dont les contextes de production produisent des réalités différentes.
Paul : Nous avons ensuite décidé de créer un autre outil d’exploration qui donne une vue synthétique de la base, ainsi que des informations plus détaillées sur son contenu et sa conception : une sorte de documentation visuelle. La vue ‘metadata’ est d’une grande richesse. Elle montre le degré de complétude de la base en retraçant le nombre de flux et d’entités qu’elle contient année par année. Elle permet de remonter à la source de chaque flux enregistré. Elle donne un aperçu de la complexité de la conception de ce type de bases en développant, pour la liste des entités de commerce qui rapportent des flux de commerce extérieur, les données disponibles dans la base année par année. L’utilisateur peut ainsi constater que la base n’est pas « parfaite ». C’est un choix que nous avons fait, dès le début, de ne pas camoufler la complexité du réel en inventant des entités fictives ou en estimant des données quand elles manquaient. La vue ‘metadata’ suggère au chercheur d’utiliser les données avec discernement ; elle peut aussi suggérer d’autres façons d’utiliser les données en étudiant de plus près cette complexité.
De nouveaux développements sont-ils prévus ?
Béatrice : Comme le fait bien ressortir la vue ‘metadata’, il y a des périodes relativement lacunaires, en particulier la période 1914-1923 qui a été volontairement laissée de côté car très volatile. Cette lacune doit être comblée en retournant au travail de collecte. Par ailleurs, nous avons encore une grande quantité d’archives commerciales numérisées dont les données n’ont pas encore été transcrites. Il reste donc une marge avant de parvenir à une base vraiment complète.
Paul : Un autre axe d’amélioration important concerne notre système de classification des entités commerçantes. Il s’agit d’ajouter une dimension d’histoire politique aux données qui permette de reconstituer le commerce des empires coloniaux et États fédéraux sur toute la période.
Béatrice : L’idée est notamment de permettre à l’utilisateur d’explorer le commerce des empires coloniaux ou d’isoler le commerce des États dont on sait qu’ils composeront un futur État fédéral.Enfin nous voudrions mettre en place des visualisations cartographiques sur le site.
Paul : C’est un chantier très ambitieux car, en plus de la dimension d’histoire politique, cela sous-entend de disposer de fonds de carte historiques. Nous espérons trouver un nouveau financement et élargir notre collaboration à l’atelier cartographique de Sciences Po.
En savoir plus