Ressources pédagogiques

Trois réflexes avant d’utiliser des chiffres

Benoît Martin
Publié le 8/02/2021

Effectifs, indices, taux, estimations, catégories, cibles, notes, etc. Des « chiffres sociaux » – portant au sens large sur les humains et les sociétés – sont aujourd’hui produits sous des formes variées et sur la plupart des sujets. Les acteurs capables de quantifier se sont diversifiés et, dans le même temps, les outils et canaux numériques entraînent une massification, une visibilité accrue et une circulation inédite des données.

Les chiffres offrent un éclairage utile. Ils permettent par exemple d’obtenir des ordres de grandeur, de comparer ou de suivre l’évolution dans le temps. Mais il convient aussi d’observer une distance critique à leur égard en prenant en compte leur auteur et leur intention ou encore le contexte de leur production et de leur usage.

Cet article se concentre sur trois questions simples ; chacune se voit illustrée par le cas des chiffres relatifs à la pandémie du Covid 19 (paragraphes en italique dans le texte).

▾ English version below 


1. Que montrent ces chiffres ?

Les chiffres ne reflètent pas «la réalité» ils en «révèlent» plutôt une facette par la sélection et la traduction, tout en en reconstruisant simultanément une autre.

Dans un premier temps, on peut analyser ce que les chiffres tentent de saisir. Les éléments à considérer sont alors l’objet/le sujet, les unités, la période, la population et l’espace géographique concernés. Si ces informations sont floues ou absentes, ces chiffres ne sont pas sérieux et mieux vaut ne pas les utiliser. Dans un second temps, on peut interpréter le message : estimer la magnitude, comparer des valeurs, suivre l’évolution, etc. Attention, les chiffres ne parlent pas d’eux-même ! Ils sont interprétés à l’aune des compétences et/ou des intérêts du lecteur, ce qui mène parfois à des analyses différentes voire contradictoires d’un même chiffre. Enfin, un exercice intéressant consiste à s’interroger sur ce que des chiffres ne montrent pas (ce qui est absent, inconnu, hors du champ, etc.). 

Dans le cas des chiffres du Covid 19, bien que les totaux nationaux éclairent sur l’ampleur de la pandémie, seules les valeurs ramenées en part de la population (prévalence) permettent de comparer des intensités entre pays. Bien sûr, le nombre d’individus infectés dépend de la capacité des États à tester leur population alors que le nombre de décès suggère de connaître et comptabiliser les causes des décès. Enfin, considérer ces statistiques à une échelle plus fine, celle de la ville (comme Wuhan) ou de la région (telle la Lombardie), s’est avéré indispensable pour comprendre les dynamiques de la pandémie.

2. Qui a produit ces chiffres ?

Produire des statistiques est une activité située, aux plans sociologique, historique, technique, politique, etc. et par là, rarement désintéressée. D’abord, leurs auteurs élaborent une connaissance chiffrée car elle sert leur activité. Par exemple, une administration nationale produit des statistiques pour adapter son activité (instrument de gestion), une ONG le fait pour soutenir son plaidoyer (instrument de preuve). Ensuite, d’autres activités entraînent une production de chiffres. Par exemple, les opérateurs de téléphonie amassent les traces numériques de leurs usagers, les douaniers de Frontex comptabilisent les entrées dans l’espace Schengen ; dans les deux cas, l’activité statistique est secondaire.

Il convient donc d’identifier l’auteur des chiffres et d’interroger sa nature, sa légitimité – qu’elle soit politique ou scientifique – et le contexte dans lequel s’opère cette production. 

Les chiffres du Covid 19 ont été directement affectés par les enjeux relatifs à l’organisation des structures sanitaires et à leur indépendance au pouvoir, deux exemples le montrent : le retard dans la prise en compte des Ehpad en France (majoritairement privés) et le contrôle politique des chiffres officiels en Chine (dont la chronologie et les ordres de grandeur ne correspondent pas à ce que rapportent les observateurs). Par ailleurs, les estimations journalières de nombreux pays présentent des creux le weekend et des rattrapages en début de semaine ; cela confirme la dépendance de ces chiffres au rythme hebdomadaire des activités professionnelles de santé.

3. Comment ont été produits ces chiffres ? 

Cette troisième entrée lie le message (ce que « disent » des chiffres) avec son auteur (qui produit les chiffres et pourquoi) pour questionner ses choix de fabrication.

En plus des éléments instantanément identifiables et déjà listés dans le premier point (sujet, unités, période, espace, etc.), les principaux enjeux résident généralement dans les choix relatifs aux définitions, aux sources, aux méthodes de collecte, aux codages, aux traitements statistiques, etc.

Bien que les paramètres potentiels soient innombrables, et rapidement très techniques, les documents méthodologiques ou les métadonnées permettent souvent de cerner les grands contours d’un chiffre : a-t-il été observé, même à partir d’un échantillon, ou est-ce une estimation issue de modèles ? quelles variables et pondérations cachent tel indicateur composite ? quels critères d’âge ont été retenus pour telle population ?

Ainsi, dans le cas du Covid 19, les indicateurs «pertinents» pour décrypter les décisions sanitaires en France sont autant ceux sur l’ampleur de la circulation du virus que ceux sur les capacités d’accueil en réanimation dans les hôpitaux… résultant elle-même de décennies de réduction des moyens du secteur public. D’autre part, quelques exemples ont révélé l’omniprésence de certains enjeux méthodologiques voire techniques : en Russie, les bilans démographiques ont permis de ré-évaluer, assez nettement et plusieurs mois après, le nombre de décès initialement comptabilisés par les autorités sanitaires ; au Royaume-Uni, une limitation bien connue d’une ancienne version d’un tableur a faussé les chiffres pendant plusieurs semaines.

Deux références utiles sur les statistiques en général


  • Olivier Martin, L’Empire de chiffres. Une sociologie de la quantification, Paris, Armand Colin, 2020.
  • Pablo Jensen, Pourquoi la société ne se laisse pas mettre en équations, Paris, Seuil, 2018.

Three questions to ask before using statistics

Frequencies, indices, rates, estimations, categories, scores etc. “Social statistics” – relating to humans and societies in the broadest sense – are now produced in highly varied forms for the majority of topics. The range of actors capable of quantifying these statistics has diversified and, meanwhile, digital tools and channels continue to expand the volume and increase the visibility of data on a massive scale. The result is an unprecedented circulation of information.

Statistics offer helpful insights. They can be used to calculate orders of magnitude, for example, or to compare and track developments over time. But it is also important to maintain a certain critical distance towards statistics, taking into account their author and intention, or the context of their production and use.

This article focuses on three simple questions; each is then illustrated using figures relating to the Covid-19 pandemic (italicised paragraphs below).


1. What do these statistics show?

Statistics do not reflect « reality”; rather, they “reveal” one facet of that reality through selection and translation, all while simultaneously reconstructing another.

We can begin by analysing what it is the statistics are trying to capture. The elements to consider are the subject/object of the data and the units, period, population and geographical area in question. If this information is unclear or missing, the statistics are not thorough and therefore not worth using. The next step is to interpret the message behind the data: estimate magnitude, compare values, track evolution etc. Remember, figures don’t speak for themselves! They are interpreted according to the skills and/or interests of the reader, which can sometimes give rise to different, even contradictory analyses of the same statistic. Finally, it is also interesting to examine what the statistics do not show (what information is missing, unknown, out of shot and so on).

In the case of the figures for Covid-19, while national totals provide insight into the scale of the pandemic, only values expressed proportionately to population (i.e. prevalence) afford a genuine comparison of intensity across countries. Of course, the number of infected individuals depends on a state’s capacity to test its population, while determining the number of deaths involves knowing and accounting for causes of death. Finally, considering these statistics in finer detail, information about city (e.g. Wuhan) or region (e.g. Lombardy) has proved essential for understanding the dynamics of the pandemic.

2. Who produced these statistics?

The production of statistics is an activity that takes place in a particular context, whether sociological, historical, technical, political and so on. That means it is rarely an impartial one. First and foremost, authors develop statistical knowledge because it will serve their own activities. For example, a national government produces statistics to help adapt its policies (administrative tool), an NGO does so to support its cause (evidencing tool). Then there are other activities that result in data production. For example, telephone operators collect information on their user’s digital activities, while Frontex border guards count entries into the Schengen Area; in both cases, the statistical activity itself is secondary.

It is therefore important to identify the producers of the statistics and examine their character, legitimacy – whether political or scientific – and the context in which the production took place.

Covid-19 figures have been directly affected by issues relating to the organisation of health facilities and their independence from the government. Two examples show this: the delay in accounting for figures from nursing homes in France (the majority of which are private) and the political control exercised over official figures in China (whose chronology and orders of magnitude are contradicted by reports from observers). In addition, daily estimates in numerous countries show dips at weekends and recoveries at the start of the week. This confirms the contingency of these figures on the weekly rhythm of healthcare work.

3. How were these statistics produced?

This third question links the message (what the figures “say”) to its authors (who is producing the figures and why) in order to examine the decisions they made during production.

In addition to those elements immediately identifiable and already listed in the first point above (subject, units, period, area etc.), the key factors to consider generally relate to decisions about definitions, sources, collection methods, coding, statistical processing etc.

While the potential parameters are innumerable, and quickly become highly technical, methodological documentation and metadata often give the broad outlines of a statistic: was it observed, even on the basis of a sample, or is it an estimation derived from models? What variables and weightings conceal a given composite indicator? What age criteria have been used for a given population?

Hence, in the case of Covid-19, indicators showing the extent of the spread of the virus in France are only as “relevant” as those relating to intensive care capacity in hospitals… itself the result of decades of cuts to public sector funding. Elsewhere, a few examples have brought into focus the omnipresence of certain methodological, even technical issues. Demographic assessments in Russia allowed for a fairly clear re-evaluation of the number of deaths initially counted by health authorities, several months down the line. In the United Kingdom, meanwhile, a well-known limitation in an old version of a spreadsheet software distorted the country’s health figures over a period of several weeks.

Two useful references for statistical work in general


  • Olivier Martin, L’Empire de chiffres. Une sociologie de la quantification, Paris, Armand Colin, 2020.
  • Pablo Jensen, Pourquoi la société ne se laisse pas mettre en équations, Paris, Seuil, 2018.