Déjà plus de
1 million
d'inscrits !
Statistique à deux variables
Déjà plus de
1 million
d'inscrits !
Introduction :
En statistique, on cherche à étudier l’effet d’un ou de plusieurs paramètres. Les années précédentes, il était question d’étudier en mathématiques une population avec des séries statistiques à une variable.
Cependant, dans de nombreux cas, les différents paramètres que l’on étudie pour une même population présentent des liens qu’il est important de pouvoir mettre en évidence, même s’il ne faut pas conclure trop vite à un lien de cause à effet. On parle alors de statistiques à plusieurs variables.
Ainsi, dans ce cours, nous allons nous intéresser aux séries statistiques à deux variables.
Dans un premier temps, nous définirons ce qu’est une série statistique à deux variables, comment la représenter et quelles données caractéristiques on peut en déduire.
Ensuite, afin de mettre en avant les corrélations entre les deux variables, nous expliquerons comment faire un ajustement affine et comment en déduire la droite des moindres carrées, ce qui permettra d’interpoler ou d’extrapoler.
Enfin, nous montrerons comment se ramener à un ajustement linéaire avec un changement de variable.
Série statistique à deux variables
Pour étudier simultanément deux variables statistiques, il est possible de définir une série statistique double ou à deux variables.
Pour cela, on a pour une population donnée de individus deux caractères quantitatifs :
Chaque individu aura ainsi un couple de caractères associé (avec ). Notons que leurs unités seront souvent différentes (par ex., si on s’intéresse au lien entre la température extérieure et la consommation électrique, ou l’évolution d’une population quelconque en fonction du temps).
Tableau de données et nuage de points
On représente généralement les couples sous forme de tableau avec une colonne (ou une ligne) pour le caractère et une colonne (ou une ligne) pour le caractère .
Nous nous intéressons à l’éventuel lien entre la teneur en carbone, en pourcent, d’un objet et la charge de rupture, c’est-à-dire la charge, en kilogramme, qui provoquera la rupture de l’objet.
Teneur en carbone
(en ) |
Charge de rupture
(en ) |
La plupart du temps, nous représentons ces données par un nuage de points, qui nous permet de mieux visualiser les données.
Nuage de points :
On représente une série statistique à deux variables et par un nuage de points dans un repère orthogonal , constitué de points de coordonnées , et étant respectivement les valeurs des variables et pour l’individu ( allant de à , avec la taille de la population).
Donnons le nuage de points correspondant aux données de notre exemple :
Teneur en carbone et charge de rupture
Le nuage de points que nous venons de représenter montre que les points ne semblent pas répartis au hasard.
Mais comment rendre cette corrélation plus évidente et, surtout, comment la quantifier ?
Point moyen
Tout d’abord, nous pouvons calculer la moyenne des deux variables, ce qui nous permet de définir le point moyen.
Point moyen :
Soit une série statistique à deux variables et , représentée par un nuage de points dans un repère .
On définit le point moyen de ce nuage comme le point , de coordonnées , où :
Nous savons calculer ces moyennes grâce aux formules suivantes.
Soit , …, les valeurs de la variable , et , , …, les valeurs de la variable .
Nous avons alors :
Continuons de filer notre exemple, et calculons les moyennes de et :
Point moyen
Covariance et coefficient de corrélation
Dans les classes précédentes, nous avons appris à calculer un indicateur qui permet de mesurer la dispersion des données d’une série statistique autour de sa moyenne.
Soit une série statistique à une variable , d’effectif : , de moyenne .
La variance de , que nous notons ici , est donnée par la formule :
Rappelons aussi que nous définissons l’écart-type de , noté , ainsi :
La covariance, elle, est une notion nouvelle, qui vient avec la notion de statistique à deux variables. Comme son nom l’indique, elle mesure la façon dont évoluent conjointement les deux variables considérées.
Covariance de :
Soit une série statistique à deux variables et , d’effectif : , respectivement de moyennes et .
La covariance de , notée ici , est donnée par la formule :
Nous le voyons, pour calculer la variance, nous effectuons une somme de produits entre deux grandeurs qui ne sont pas, la plupart du temps, exprimées dans la même unité.
Coefficient de corrélation :
Soit une série statistique à deux variables
Soit la covariance de et .
Le coefficient de corrélation , aussi noté , est alors défini par :
Ce coefficient indique le lien, linéaire, qui existe entre les variables et :
Nous allons maintenant calculer tous ces indicateurs dans le cas de notre exemple et en tirer une première conclusion.
Ajustement affine
Ce qui va suivre a pour but de donner des outils pour effectuer des prévisions pour des valeurs inconnues, que celles-ci soient dans le domaine d’étude ou en dehors.
Interpolation et extrapolation :
Pour la teneur en carbone de nos objets et la charge de rupture associée :
Effectuer une extrapolation peut être dangereux : en effet, rien ne démontre que le modèle déduit des données fournies reste vrai en dehors de ce domaine.
Par exemple, si un commerçant s’intéresse au chiffre d’affaires qu’il fait en fonction de l’heure de la journée et qu’il ne relève les données qu’entre 17 heures et 19 heures, alors, ce créneau correspondant à la sortie des bureaux et donc à ses heures de grande fréquentation, il ne pourra extrapoler le chiffre fait lors des horaires « creux », à 14 h 30, par exemple.
Ajustement affine
Lorsqu’un lien linéaire semble apparaître entre deux variables, et afin de pouvoir faire des interpolations et des extrapolations, il est intéressant d’ajuster le nuage de points au moyen d’une droite et de caractériser ainsi la relation affine entre les deux variables.
Ajustement affine :
Le principe de l’ajustement affine est de tracer, lorsque les points d’un nuage semblent globalement alignés, une droite passant « au plus près » de ces points.
Remarquons que « au plus près » est une formulation assez vague. Il existe plusieurs techniques.
Méthode de Mayer
Cette méthode, aussi appelée méthode des points moyens, consiste tout simplement à relier deux points moyens du nuage. Elle n’est guère fiable, car elle est notamment sensible aux valeurs extrêmes, mais elle a le mérite d’être simple et rapide.
Méthodologie :
Appliquons-la rapidement à notre exemple.
Ajustement affine par la méthode de Mayer
Droite des moindres carrés
Nous allons maintenant aborder la méthode la plus utilisée pour effectuer un ajustement affine : la méthode des moindres carrés.
Pour bien la comprendre, considérons un nuage simple de points , représentons aussi une droite, qui passe par le point moyen et dont l’équation est de la forme .
Ajustement affine par la droite des moindres carrés
Ce qui nous intéresse, c’est la distance entre les points et associés.
Soit un nuage de points, qui représente une série statistique à deux variables.
Déterminer la droite des moindres carrés consiste à trouver la droite qui minimise le carré des distances ().
Pour cela, nous allons admettre la propriété suivante.
Soit une série statistique à deux variables :
Soit la covariance de et .
La droite des moindres carrés, ou droite d’ajustement de en , a pour équation où :
Résumons ce qui précède en donnant une méthodologie à suivre, lorsqu’un exercice demande de déterminer la droite d’ajustement par la méthode des moindres carrés.
Méthodologie d’ajustement affine par la méthode des moindres carrés :
Soit une série statistique à deux variables et .
Appliquons cette méthode, toujours à notre exemple.
Nous avons déjà représenté le nuage de points (étape 1) et calculé les résultats pour les points 2, 3 et 4 :
Variable | Moyenne | Variance | Covariance |
Calculons d’abord la charge de rupture prévue par notre modèle pour un objet dont la teneur en carbone a été mesurée à .
Il suffit de remplacer, dans l’équation, par la valeur donnée (pour plus de rigueur, nous utilisons les expressions exactes, et non les arrondis) :
Nous souhaitons maintenant que la charge de rupture de notre objet soit de . Quelle teneur en carbone doit-il avoir ?
Nous remplaçons cette fois par la valeur donnée :
Remarquons que, si nous avions posé la même question pour une charge de , nous aurions trouvé une teneur en carbone d’environ … Ce qui, en l’occurrence, serait un non-sens physique.
Ci-dessus, nous avons effectué « manuellement » les calculs complets (à quelques points de suspension près), car il est important de bien comprendre le principe (et aussi parce que des exercices le demandent). À cet effet, nous avons travaillé avec un nombre restreint de données (effectif de ).
En pratique, pour pouvoir effectuer des prévisions dignes de confiance et afin d’avoir un modèle mathématique d’ajustement le plus précis possible, nous devons disposer de beaucoup de données.
Bien sûr, dans de tels cas, calculer « manuellement » les moyennes, les variances, la covariance, etc., serait une tâche titanesque (et parfaite pour les erreurs de calcul…).
Servons-nous de notre exemple pour montrer les fonctions concernant les statistiques à deux variables, et ce sur les tableurs les plus utilisés : Calc d’OpenOffice et Microsoft Excel.
Sur une feuille, nous avons au préalable entré les sur deux colonnes (nous aurions aussi pu les mettre sur deux lignes) :
Variable | ||
Moyenne | ||
Variance | ||
Covariance | ||
Coef. de corrélation | ||
Droite d’ajustement | ||
Ajustement affine par changement de variable
Dans certains cas, les points du nuage ne peuvent être considérés comme alignés, car l’approximation serait de manière évidente beaucoup trop grande.
Parfois, il est toutefois possible d’étudier ce lien non linéaire au moyen d’un ajustement affine, et ce grâce à un changement de variable.
Dans cette dernière partie, nous allons donc montrer cette méthode à travers l’exemple de l’évolution d’une population, que vous avez déjà abordée, ou que vous aborderez bientôt, en enseignement scientifique (nous considérerons dans ce cours que le temps est une donnée continue, tandis que, dans le cours d’enseignement scientifique, nous travaillons par palier entier, et donc de manière discrète).
Un nuage de points non alignés
Nous disposons, pour une région, du recensement décennal de la population, sur tout le XXe siècle, exprimé en million et arrondi à la dizaine de milliers (la précision est meilleure après les années 50) :
Année | Population
(en million) |
Droite d’ajustement de y en x
Celui-ci n’est pas très éloigné de , mais nous ne pouvons pas dire non plus qu’il est « presque égal » à .
Nous pouvons tout de même faire une première remarque.
Nous constatons une diminution de la population entre les années 10 et 20, et une stagnation entre les années 40 et 50.
Changement de variable
Si les points ne sont pas alignés, nous reconnaissons quand même l’« allure » caractéristique de la courbe représentative de la fonction exponentielle.
Si l’évolution de la population suit effectivement une croissance exponentielle, nous pourrons alors mettre en évidence une corrélation linéaire entre et .
Notons que, dans cet exemple, nous nous intéressons aux effectifs d’une population, donc la variable prendra des valeurs strictement positives, et nous pouvons donc travailler directement avec la fonction logarithme népérien.
Année | Population
(en million) |
|
Droite d’ajustement de z en x
Le coefficient est cette fois très proche de .
L’équation de la droite d’ajustement de en est alors :
Nous en déduisons :
En arrondissant à près, nous obtenons finalement :
Traçons sa courbe représentative :
Courbe représentative de la fonction f
Nous cherchons à savoir approximativement en quelle année la barre des millions d’habitants a été franchie. Nous décidons de le faire graphiquement. Pour cela, nous déterminons graphiquement l’abscisse du point de la courbe représentative de d’ordonnée :
Courbe représentative de la fonction f et interpolation
Nous trouvons : .
Remarquons que si nous avions utilisé la modélisation sans changement de variable, nous aurions trouvé environ ans… ce qui aurait été en contradiction avec les données.
Nous nous demandons maintenant quelle sera la population après ans.
Nous nous servons bien sûr de la fonction dont nous disposons pour calculer :
Nous avons précisé que nous supposions le modèle valable hors du domaine de la série statistique, et ceci est toujours indispensable.
Dans notre exemple, nous constatons un infléchissement de la croissance à l’année .
Est-elle simplement conjoncturelle, comme les événements historiques à l’origine de la diminution et du ralentissement que nous avons déjà constatés ? Ou cet infléchissement a-t-il des raisons plus profondes et le modèle perd-il sa pertinence pour toute extrapolation ?
En effet, en enseignement scientifique, vous avez découvert, ou découvrirez, que la croissance d’une population peut être exponentielle durant des périodes brèves, mais qu’elle se heurte à la limite des ressources disponibles. Ainsi, une population aura tendance à tendre vers un maximum.
Ici, nous n’avons pas assez d’informations pour savoir ce qu’il en est précisément.
Récapitulatif
Voici une méthodologie à suivre lorsqu’un changement de variable s’impose.
Méthodologie :
Notons aussi qu’une calculatrice ou un tableur sont aussi capables de déterminer très rapidement la fonction d’ajustement, selon le modèle que vous choisirez.
Dans notre exemple de croissance exponentielle, une fois le nuage représenté dans un tableur :
Enfin, pour conclure ce cours, le long duquel nous avons parlé de lien ou de corrélation entre deux variables, il est indispensable d’ajouter un avertissement.
Il ne faut pas confondre corrélation entre deux variables et lien de cause à effet : mettre en évidence un lien ne suffit absolument pas à conclure que l’évolution d’une variable est la cause de l’évolution de l’autre. Une étude rigoureuse et la plus exhaustive possible est indispensable pour déterminer un lien de causalité.
Par exemple, il y aurait sans doute une corrélation entre le nombre de ventilateurs achetés et la quantité de glaces consommées, mais l’un n’est évidemment pas la cause de l’autre : la véritable cause est plutôt la température extérieure, qui influe sur les deux variables !
En revanche, ce sont des études approfondies qui montrent que les anomalies météorologiques, comme les canicules, sont sans doute dues au réchauffement climatique, lui-même causé par l’activité humaine…
Conclusion :
Dans ce cours, nous avons donc ajouté une dimension importante aux statistiques sur lesquelles nous avons travaillé jusqu’ici. En effet, mettre en évidence la corrélation entre deux variables est un aspect fondamental dans l’étude de données, même s’il n’est pas suffisant pour conclure à un lien de cause à effet.
Nous avons ici travaillé sur le lien entre deux variables, mais il peut y avoir bien sûr corrélation entre de multiples variables, compliquant la tâche. Il existe en statistique divers outils pour traiter de telles données, que certains découvriront durant leurs études supérieures.