La revue du projet

La revue du projet
Accueil
 
 
 
 

Distinguer corrélation et causalité, Fanny Chartier

Si la corrélation est seulement empirique, la causalité est explicative.

Qu’est-ce qu’une corrélation ? On dit que deux phénomènes sont corrélés si, lorsque l’on observe leurs variations respectives, ils évoluent dans le même sens (corrélation positive : quand l’un augmente, l’autre aussi) ou dans un sens opposé (corrélation négative : quand l’un augmente, l’autre diminue). Pour autant, cela ne signifie pas qu’il y ait un lien de causalité entre ces deux phénomènes. Prenons trois exemples pour nous en convaincre : aux États-Unis, la consommation annuelle de poulet par personne est corrélée avec les importations en pétrole brut ; la consommation annuelle de fromage par personne est corrélée avec le nombre de personnes qui décèdent après être tombées de leur fauteuil roulant, ou encore le nombre de films dans lequel joue Nicolas Cage chaque année est corrélé avec le nombre annuel de doctorats en ingénierie délivré (On trouvera beaucoup d’autres corrélations amusantes sur http://tylervigen.com/spurious-correlations). La corrélation est donc un lien empirique entre deux phénomènes, sans que pour autant la variation de l’un soit la cause de la variation de l’autre.
Avant de pouvoir parler d’une « bonne » corrélation, il faut constituer un échantillon pertinent et représentatif. Par exemple, si l’on observe les effets de la politique des aides à la pierre sur les constructions de logements en France, on ne peut pas conclure que cette politique est efficace ou inefficace au bout d’un mois. De la même façon, même après quelques années, on ne pourra pas conclure que cette politique est efficace ou inefficace à l’échelle nationale si l’on se contente d’observer l’évolution de la construction de logements dans une ou deux villes. De même, si l’on souhaite établir un lien entre les pratiques électorales et le diplôme des Français, par exemple, on ne peut pas se contenter d’interroger cent personnes « au hasard » dans une rue parisienne à 12 heures. Cet échantillon ne pourra pas prétendre être représentatif de la population française : il va sans dire que les habitants et/ou travailleurs qui fréquentent une rue ou l’autre, une ville ou l’autre, à une heure ou à une autre, ne sont pas les mêmes. Les corrélations seraient donc faussées. En statistiques, lorsque le protocole même de l’enquête ne permet pas d’élaborer un échantillon représentatif on parle de biais de sélection. Pour établir un lien entre deux phénomènes et à moins de faire un recensement complet de la population que l’on étudie, il est donc nécessaire de construire un échantillon d’observations qui doit être statistiquement représentatif de la population. C’est la représentativité de l’échantillon qui assure statistiquement que l’on peut tirer des conclusions fiables sur la population que l’on étudie (les Français, les femmes, les hôpitaux, etc.) à partir des données obtenues sur l’échantillon : c’est ce que l’on appelle l’inférence statistique.
Par ailleurs, plus l’échantillon est grand, plus les conclusions pourront être précises. Un échantillon trop petit ne peut pas permettre de tirer des conclusions. Pour déterminer si l’échantillon est suffisamment grand, il existe un certain nombre de tests statistiques. À partir des données recueillies sur un échantillon, on peut savoir si les différences observées sont liées à la constitution de l’échantillon lui-même, ou s’il existe bien des différences significatives entre les deux variables étudiées. La précision des sondages d’opinion et des enquêtes dépend des méthodes de collectes de données employées, et varie notamment en fonction du nombre de personnes interrogées. Pour quantifier cette précision, il existe en mathématiques ce que l’on appelle des intervalles de confiance. Par exemple, lorsqu’un sondage crédite un candidat à une élection à 53 % des intentions de vote, les intervalles de confiance sont très différents selon le nombre de personnes qui ont été interrogées : si l’on interroge seulement 100 personnes, on peut affirmer avec un risque d’erreur inférieur ou égal à 5 % que le pourcentage réel d’intention de vote est compris entre 43,2 % et 63,8 % des voix, alors que si 10 000 personnes sont interrogées, on peut estimer que le candidat fera entre 52 % et 54 %. Les données doivent donc être significatives en qualité mais aussi en nombre.
Une fois la qualité des données assurée, comment lire une corrélation ? Il faut d’autant plus se méfier des corrélations que celles-ci n’indiquent pas lequel des deux phénomènes pourrait être la cause de l’autre. « Quand on est malade, il ne faut surtout pas aller à l’hôpital : la probabilité de mourir dans un lit d’hôpital est 10 fois plus grande que dans son lit à la maison » disait avec humour Coluche. S’il existe bien un lien entre le fait d’aller à l’hôpital et celui de mourir, ce n’est évidemment pas le fait d’aller à l’hôpital qui augmente nos chances de décès : si l’on vient à l’hôpital c’est que l’on est malade or la probabilité de mourir est plus grande lorsque l’on est malade. Avec cet exemple, on voit bien que c’est le choix d’une théorie qui nous permet d’interpréter dans tel ou tel sens la corrélation et d’expliquer les causes de ces décès plus fréquents à l’hôpital que dans son lit. La théorie proposée doit donc avoir un pouvoir explicatif, ne serait-ce que pour savoir dans quel sens lire les corrélations. Il est par exemple maintenant bien établi qu’historiquement les variations de température sont liées aux variations de concentration de gaz carbonique dans l’atmosphère. Mais on ne peut faire l’économie de comprendre par la théorie dans quel sens évolue cette relation. Et c’est bien là la différence fondamentale entre corrélation et causalité : si la corrélation est seulement empirique, la causalité est explicative et nécessite donc d’explorer l’ensemble des hypothèses causales possibles avant de conclure sur le lien entre deux phénomènes. 

La Revue du projet, n°57, mai 2016
 

Il y a actuellement 0 réactions

Vous devez vous identifier ou créer un compte pour écrire des commentaires.