La revue du projet

La revue du projet
Accueil
 
 
 
 

Statistiques et modélisation, Bastien Marchina*

La garantie d'une croissance continue, et stable, de l'économie repose sur une vision particulièrement sinistre de l'humanité, sous le motif de permettre la convergence de modèles mathématiques.

    Les statistiques sont une discipline scientifique pour laquelle il est délicat de proposer une définition exhaustive. Cette difficulté apparaît clairement dans la définition, classique, que propose Pierre Dagnelie : « ensemble des méthodes ayant pour objet la collecte, le traitement et l'interprétation de données d'observation relatives à un groupe d'individus ou d'unités ». On voit bien la diversité des problématiques que cette science aborde.

Les statistiques mathématiques

 

L'articulation entre les méthodes que proposent les statistiques mathématiques pour l'étude de données réelles et les problématiques spécifiques aux différentes disciplines n'est pas sans poser des problèmes variés, souvent liés à la difficulté à faire fonctionner ensemble des domaines scientifiques très différents dont les problématiques sont souvent difficiles à traduire d'un contexte à un autre.

Malgré tout, les statistiques mathématiques offrent un cadre théorique robuste pour le traitement de données, dont les limites ont souvent un sens clair, une fois traduites du langage mathématique.

Ainsi, les statistiques sont à la fois une branche des mathématiques appliquées qui s'intéresse à l'étude d'échantillons de variables aléatoires, qui s'appuie notamment sur la théorie du calcul des probabilités et, en même temps, le nom commun donné aux méthodes scientifiques traitant de la collecte et de l'interprétation pratique des données collectées dans des domaines aussi variés que la médecine, les sciences physiques, la biologie, l'économie, la sociologie ou la psychologie. Le lien se fait par l'utilisation de méthodes issues des statistiques mathématiques, c'est-à-dire à l'identification des données collectées à des variables aléatoires.

Les variables alétoires

 

Précisons qu'une variable aléatoire est une fonction qui associe une grandeur bien définie (un nombre réel (3 ; -1,5 ; 3/4 ; etc.) pour des variables aléatoires continues ou un entier relatif (2 ; -2 ;
-10 ; etc.) pour des variables aléatoires discrètes par exemple) aux éléments d'un espace probabilisé, dont la particularité est que ses éléments sont en général inaccessibles directement. On cherche donc à étudier les propriétés de ces variables aléatoires en s'appuyant sur leurs réalisations pour en déduire, (on dit aussi en inférer) leurs propriétés. De plus, un échantillon est (ordinairement) défini comme une suite de variables aléatoires indépendantes mais partageant la même répartition.

L'intérêt de cette construction est que la définition très souple d'un espace probabilisé facilite l'utilisation pratique de modèles statistiques. Étudions par exemple la prévalence d'une maladie génétique dans une population. Chaque individu de la population étudiée est identifié à un élément de l'espace probabilisé et la variable aléatoire est la fonction qui prend la valeur 0 ou 1 selon la l'absence ou la présence de la maladie.

Maintenant, si la population est de très grande taille, la population française par exemple, il sera quasi impossible de mener l'enquête sur toute la population considérée (ce qui fait écho à l'inaccessibilité des éléments d'un espace probabilisé), et il faudra mener l'enquête sur un sous-ensemble de cette population. Prenons une population test de mille personnes : on associe à chaque individu la valeur 0 ou 1 selon qu'il est ou non malade. On peut alors calculer la proportion d'individus malades, disons 5%. La question est : que nous apprend ce résultat sur la présence de la maladie dans la population générale ? Les statistiques mathématiques offrent des méthodes permettant de quantifier l'écart entre ces 5% et la proportion réelle de malades, sous des conditions mathématiques qu'on peut traduire, imparfaitement, en des conditions sur la population testée.

Précisons par exemple le sens de la notion d'indépendance. Dans le cas d'un échantillon, elle implique qu'il n'y a pas de relation interne entre les différentes variables impliquées. Rapportée à l'étude statistique d'une population réelle, cette hypothèse – qui est nécessaire au bon fonctionnement d'une grande partie des modèles statistiques – implique qu'on suppose les différents individus étudiés comme étant des représentants d'une population homogène, représentant sa diversité, sans qu'il existe de liaisons entre ces individus pour les variables considérées.

Lorsqu’on traduit cet ensemble d'hypothèses en termes économiques, les problèmes commencent ! Cela revient en effet à supposer que tous les individus agissent en fonction de leur meilleur intérêt, ramené à la quête égoïste d'un profit maximal, tout en disposant de tous les éléments d'information de manière simultanée et parfaitement égalitaire.

C'est sous ces hypothèses – pour le moins discutables… – que les économistes néolibéraux ont montré la stabilité de leurs modèles économiques. Ainsi, ils n'offrent la garantie d'une croissance continue et stable de l'économie qu'au prix de l’élévation d’hypothèses philosophiques très fragiles sur l'humanité au rang de vérités immuables, sous prétexte qu'elles sont nécessaires à la convergence de modèles mathématiques.

Ces hypothèses philosophiques qui décrivent une humanité particulièrement détestable, cupide et individualiste ne sont (heureusement) que la traduction de la vision particulièrement anti-égalitaire défendue par les promoteurs de ces théories économiques. Toutefois, et c'est beaucoup plus gênant, les mathématiques, c'est-à-dire les conditions techniques nécessaires à la stabilité théorique des modèles économiques sous-jacents, servent d'argument quasi-religieux pour justifier idéologiquement la domination réelle de la classe capitaliste sur les sociétés contemporaines.

Les tests d'hypothèses

 

Il nous faut en outre montrer à présent l'importance de la bonne compréhension des limites des modèles statistiques à l'aide de l'un des principaux champs de la recherche en statistiques mathématiques : les tests d'hypothèses.

L'objet de cette branche est de donner des outils mathématiques permettant de tester la validité d'un modèle statistique. On va tester une hypothèse liée à un modèle, ou hypothèse nulle (ou H0), contre des hypothèses alternatives (ou contre-hypothèses,  ou H1).

Par exemple, faisons l'hypothèse que l’espérance (cette notion s'identifie assez bien à celle de moyenne) d'une certaine variable aléatoire X est égale à une valeur μ. La contre-hypothèse classique est de supposer que X n'a pas pour espérance μ. Ceci indique l'un des problèmes centraux de ce champ de recherche : H0 est unique, mais il y a une infinité de manières pour l'espérance de X d'avoir une autre valeur.

Qui plus est, même sous l'hypothèse nulle, le calcul de la moyenne empirique d'un échantillon ne donnera (presque) jamais la valeur réelle de l'espérance de cet échantillon, mais une valeur proche. L'écart entre la moyenne calculée et celle de l'hypothèse doit donc être quantifié si on veut pouvoir évaluer le modèle. C'est le rôle de la statistique de test, qui associe un nombre réel à un échantillon. Cette statistique doit elle-même être étudiée en profondeur. En particulier, on étudie les probabilités qu'elle prenne telle ou telle valeur, dans le cas où elle est calculée avec des échantillons conformes à H0.

De plus, les tests d'hypothèses sont sujets à deux risques d'erreur. Le risque de première espèce est celui de rejeter H0 à tort ; le risque de seconde espèce est de ne pas rejeter H0 à tort. On peut contrôler le risque de première espèce en rejetant H0 lorsque la valeur calculée de la statistique de test est en dehors des  valeurs que prend en théorie la statistique de test pour (par exemple) 95% des  échantillons test. On parle de test fait au seuil de 5%. Le risque de seconde espèce doit être évalué pour chaque contre-hypothèse en calculant la proportion d'échantillons ou H0 est bien rejetée. Un bon test est un test pour lequel le risque de seconde espèce est faible sur des classes de contre-hypothèses raisonnables au vu du modèle proposé. Cette étude ne peut pas être exhaustive si H1 est compliqué, ce qui peut mener à des controverses sur la valeur réelle d'un test.

Donnons un exemple. Un biologiste souhaite établir l'existence d'un facteur de risque favorisant une certaine maladie génétique dans une population particulière. L'essentiel de son travail sera de trouver quels facteurs génétiques, ou environnementaux, peuvent expliquer ce phénomène. Une étude quantitative peut appuyer la démonstration en illustrant le fait que la proportion effective d'individus touchés par la maladie est significativement supérieure à celle de la population générale.

On peut alors tester H0 : la proportion d'individus malades dans la population test est identique à celle de  la population générale contre H1 : cette différence existe. La statistique de test va servir à quantifier l'écart entre la proportion d'individus malades dans un échantillon de la population cible à une proportion témoin. Si cet écart est suffisant, le biologiste conclura, à une marge d'erreur près, qu'on a raison de rejeter H0, et appuiera ses autres études affirmant que la maladie est plus fréquente dans la population étudiée.

En conclusion, les statistiques permettent de construire des outils pour l'évaluation des modèles clairs dans leurs possibilités et leurs limites. En revanche, l'utilisation abusive de ces méthodes doit être combattue pied à pied. Une première manière de combattre ces abus est de favoriser l'éducation aux méthodes statistiques dans la population, non en apprenant des formules magiques comme on le fait trop souvent, mais en alliant maîtrise des outils techniques et enseignement de leurs limites.  

*Bastien Marchina est mathématicien. Docteur en mathématiques, il enseigne à l’unviersité Montpellier-2.

La Revue du projet, n° 19, septembre 2012
 

Il y a actuellement 0 réactions

Vous devez vous identifier ou créer un compte pour écrire des commentaires.