Les statistiques mathématiques, leurs pièges, leurs succès

Entretien imaginaire*
On dit : il y a trois degrés dans le mensonge : le mensonge simple, le fieffé mensonge et la statistique ; pourtant les statistiques sont souvent utiles, alors que faire ?

Le problème principal est-il le choix au départ de ce qu'on décide de compter, de mesurer, des questions qu'on pose ?
Les pièges se situent certes en amont des recueils de chiffres, mais également dans ce recueil même, puis dans le traitement mathématique ou informatique des données, enfin en aval dans leur interprétation. Les erreurs et biais peuvent provenir d'un choix idéologique, d'une volonté de tromper, ou aussi d'une naïveté, d'un manque de culture statistique, car cette discipline est assez subtile. Cela dit, il est vrai qu'afficher tous les jours les cours de la Bourse et jamais ceux des inégalités constitue un choix qui oriente les statistiques ; pour cela, il a fallu auparavant distiller (au moins implicitement) l'idée que les cours de Bourse représentent un bon indicateur de la santé du pays et de l'intérêt général.

Qu'est-ce qu'un échantillon représentatif ? Et y en a-t-il qui le paraissent et ne le sont pas ?
Le statisticien n'a pas uniquement pour tâche d'amasser des données, il doit surtout faire émerger l'essentiel à partir de forêts et de broussailles de chiffres où l'on se perdrait, c'est-à-dire passer du quantitatif au qualitatif, et cela de préférence avec peu de temps de calcul. Pour ne pas être (trop) biaisé, un échantillon doit être choisi de façon aléatoire, ou en respectant a priori certaines proportions dans la diversité des populations concernées, ou par un mélange de ces deux méthodes. Cela ne suffit pas toujours et l'esprit critique doit s'exercer dans tous les cas.

Les statistiques données dans la presse se contentent en général de comparer des pourcentages ou des moyennes, en quoi est-ce insuffisant ou trompeur ?
C'est souvent une première indication utile, elle permet d'attirer l'attention sur des phénomènes, sur des évolutions. Si l'on est certain que le phénomène suit un modèle probabiliste clair, cette simple comparaison peut même être suffisante pour vérifier la validité d'un facteur. Mais cela ne saurait être toujours le but. Si, par exemple, le revenu moyen augmente légèrement, mais en rendant les riches bien plus riches et les pauvres bien plus pauvres, qu'a-t-on gagné avec cette comparaison ? Si tel type de cancer est plus répandu dans tel type de population, c'est une information, mais cela ne nous donne pas l'origine de ce cancer. Les moyennes et les pourcentages écrasent la diversité et ne disent pas grand-chose sur les causes.

Quand on a des phénomènes qui paraissent liés, comment reconnaître si, oui ou non, l'un est la cause de l'autre ?
Y a-t-il des exemples frappants dans les deux cas ? La confusion entre corrélation et causalité est une des plaies de la statistique hâtive. Des variables peuvent être corrélées, c'est-à-dire se comporter de façon semblable, sans que pour autant la variation de l'une soit cause de la variation de l'autre. Si on remarque une parenté entre la mauvaise qualité de l'air et les maladies respiratoires, le « bon sens » paraît indiquer que la première est la cause des secondes, mais d'autres explications pourraient exister. Peut-on raisonner de même pour les chiffres de la délinquance et ceux de l'origine sociale ou géographique des coupables ? Voici un autre exemple : la fréquentation des églises à Carpentras et la vente des glaces et gaufres au Parc de la Tête d'Or à Lyon sont bien corrélées par rapport aux jours de la semaine ; mais aucune n'est évidemment la cause de l'autre, les variations des deux découlent seulement des spécificités du mercredi pour les enfants et du week-end pour tous ! Face à la constatation que la consommation de cigarettes et le cancer du poumon variaient dans le même sens, le grand statisticien Ronald Fisher faisait remarquer vers 1950 que la relation était symétrique : en d'autres termes, ces seuls chiffres pourraient aussi bien signifier qu'une prédisposition au cancer du poumon donne envie de fumer (explication un peu ridicule) ou que ces deux phénomènes sont conséquences d'un troisième, par exemple une maladie génétique (explication non ridicule) : seules de nouvelles enquêtes statistiques ou médicales peuvent vraiment prouver que le tabac provoque le cancer du poumon. En conclusion, quand on constate une corrélation, il faut poursuivre l'étude (parfois longtemps) pour voir où sont les causes ; la question est encore plus délicate quand il y a des intérêts économiques et politiques en jeu.

Peut-on donner quelques exemples de paradoxes simples qui trompent même les gens de bonne foi ?
Dans son excellent ouvrage, Attention statistiques ! (éd. La Découverte, 1985), Joseph Klatzmann, qui a longtemps travaillé à l'INSEE et dans de nombreux services statistiques, en donne des centaines. Voici un exemple issu d'une enquête d'après-guerre : « dans chaque région de France, les agriculteurs consommaient plus de pommes de terre que les non agriculteurs et, pour l'ensemble de la France, c'était le contraire. Comment cela était-il possible ? ». Qui le croirait ? Et pourtant l'explication est simple. Voici l'idée de la réponse : « La proportion d'agriculteurs dans la population totale était forte dans le Sud-Ouest, région [1] où l'on consomme peu de pommes de terre, tandis qu'elle était faible dans le Nord-Est, région [2] de forte consommation traditionnelle de ce tubercule ». Imaginez par exemple 50 agriculteurs consommant 90 kg/an et 50 non agriculteurs en consommant 80 dans une région [1], puis 10 agriculteurs consommant 130 kg/an et 90 non agriculteurs en consommant 120 dans une région [2] et faites le calcul ! Le meilleur statisticien, tant qu'il n'y a pas été confronté lui-même, peut tomber dans le panneau. Le citoyen moyen, le journaliste, l'homme politique, encore plus.

En sciences traditionnelles, pour tester un facteur, on fixe tous les autres et on ne fait varier que celui-là ; mais ce n'est pas toujours possible dans la vie concrète, alors que faire ?
Si tout bouge, si les phénomènes évoluent dans le temps, est-ce le désarroi pour les statisticiens ? Au XIXe siècle, même après les travaux merveilleux de Laplace, Poisson, etc., la statistique mathématique était désarmée face à ces problèmes. Par exemple, l'école historique allemande rejetait toute pertinence des statistiques en économie au nom de cette « variabilité des chances », de ces dépendances et interactions entre les phénomènes de la vie réelle. C'est au XXe siècle que, d'abord en agronomie puis dans d'autres domaines, des progrès considérables ont été obtenus tant sur le plan mathématique que grâce aux nouveaux moyens de calcul. C'est ce qu'on appelle l'analyse multivariée, les plans d'expérience, la statistique des processus… Il faudrait un peu entrer dans la technique pour l'expliquer, mais l'idée est bien en effet de surmonter les difficultés exprimées dans la question posée.

Si on a des petits échantillons (par exemple de 10), est-ce que les statisticiens ont encore leur mot à dire ?
C'est un des succès de la statistique mathématique britannique du début du XXe siècle d'avoir construit une théorie statistique des petits échantillons. La réponse à la question est en gros : oui, on peut dire quelque chose, mais il faut préciser et contrôler les probabilités d'erreurs, ce sont les théories des intervalles de confiance et des tests (voir La Revue du Projet, n° 19, septembre 2012). Mais attention, même un grand échantillon (disons d'un million) n'est pas une garantie pour faire une statistique correcte : il peut être biaisé ou en évolution, les épreuves peuvent ne pas être indépendantes et les difficultés apparaissent alors.

Les études statistiques ont un coût, alors comment décider si « ça vaut le coup » de payer pour en avoir de meilleures ou si on peut se contenter de statistiques moins chères, pas très exactes mais pas trop fausses ?
Les réponses doivent être à la fois mathématiques (c'est par exemple ce qu'on appelle la théorie statistique des décisions d'Abraham Wald), mais aussi guidées par les tâches qu'on se donne. Cela implique donc des spécialistes des sciences et techniques intéressées par ces tâches, des économistes, également les citoyens dans leur diversité d'intérêts et de sensibilités.

Est-il important de faire des statistiques mathématiques savantes et y a-t-il plusieurs écoles concurrentes ?
Deux fois oui. Face aux déluges de données qui arrivent de toutes parts, si on ne disposait que de méthodes mathématiques frustes, on serait noyé. Aujourd'hui on sait traiter assez bien des ensembles de données variées, voire partiellement manquantes, y compris des statistiques d'événements rares, de phénomènes extrêmes. En outre, il ne faut pas croire que l'ordinateur sort « tout seul » de bons résultats : une amélioration de la puissance de calcul implique nécessairement, pour pouvoir en tirer quelque chose, des progrès mathématiques, par exemple sur la structure des espaces de grande dimension. Cependant, les principes de base des statistiques mathématiques doivent être discutés : la statistique classique, qui cherche à remonter des effets aux causes dans un cadre aléatoire, suppose l'existence d'un modèle probabiliste sous-jacent ; d'autres statisticiens, travaillant sur des phénomènes « moins structurés », rejettent ces hypothèses et préfèrent des méthodes de classification ou d'analyse des données qu'ils considèrent comme moins sujettes aux préjugés ; nous ne pouvons entrer ici dans le détail des explications et il y a débat entre les spécialistes.

En conclusion, le pire danger est-il de faire trop confiance aux statistiques ou de les ignorer ?
Les deux, mon général.

*Entretien (imaginaire) issu de discussions entre Pierre Crépel, historien des statistiques, Thibaut Espinasse, mathématicien (Université Lyon 1), Colin Faverjon, élève de l'ENS de Lyon, et Bastien Marchina, mathématicien (Université Montpellier 2).

La Revue du projet, N° 33, janvier 2014

Il y a actuellement 0 réactions

Vous devez vous identifier ou créer un compte pour écrire des commentaires.

Les statistiques mathématiques, leurs pièges, leurs succès

le 15 January 2014

La revue du projet