Médaille
N°1 pour apprendre & réviser du collège au lycée.
Statistique à deux variables

Déjà plus de

1 million

d'inscrits !

Les images ne sont pas encore disponibles pour ce cours.

Celles présentes sont juste des « brouillons »
afin de permettre une meilleure compréhension du cours,
jusqu’à ce que les définitives soient prêtes.

Nos graphistes font tout leur possible pour les réaliser au plus vite.

😉

Introduction :

En statistique, on cherche à étudier l’effet d’un ou de plusieurs paramètres. Les années précédentes, il était question d’étudier en mathématiques une population avec des séries statistiques à une variable.
Cependant, dans de nombreux cas, les différents paramètres que l’on étudie pour une même population présentent des liens qu’il est important de pouvoir mettre en évidence, même s’il ne faut pas conclure trop vite à un lien de cause à effet. On parle alors de statistiques à plusieurs variables.

Ainsi, dans ce cours, nous allons nous intéresser aux séries statistiques à deux variables. Dans un premier temps, nous définirons ce qu’est une série statistique à deux variables, comment la représenter et quelles données caractéristiques on peut en déduire.
Ensuite, afin de mettre en avant les corrélations entre les deux variables, nous expliquerons comment faire un ajustement affine et comment en déduire la droite des moindres carrées, ce qui permettra d’interpoler ou d’extrapoler.
Enfin, nous montrerons comment se ramener à un ajustement linéaire avec un changement de variable.

Série statistique à deux variables

Pour étudier simultanément deux variables statistiques, il est possible de définir une série statistique double ou à deux variables.
Pour cela, on a pour une population donnée de nn individus deux caractères quantitatifs :

  • la variable xx, pour laquelle les données relevées sont x1x1, x2x2, …, xnx_n ;
  • la variable yy, pour laquelle les données relevées sont y1y1, y2y2, …, yny_n.

Chaque individu aura ainsi un couple de caractères associé (xi ;yi)(xi\ ;\, yi) (avec i{1,2,,n}i\in \lbrace 1,\,2,\,…,\,n\rbrace). Notons que leurs unités seront souvent différentes (par ex., si on s’intéresse au lien entre la température extérieure et la consommation électrique, ou l’évolution d’une population quelconque en fonction du temps).

  • L’ensemble de ces couples constitue une série statistique à deux variables.

Tableau de données et nuage de points

On représente généralement les couples sous forme de tableau avec une colonne (ou une ligne) pour le caractère xx et une colonne (ou une ligne) pour le caractère yy.

bannière exemple

Exemple

Nous nous intéressons à l’éventuel lien entre la teneur en carbone, en pourcent, d’un objet et la charge de rupture, c’est-à-dire la charge, en kilogramme, qui provoquera la rupture de l’objet.

  • 1010 essais ont été faits en laboratoire, et nous obtenons les résultats suivants :

Teneur en carbone xix_i

(en %\%)

Charge de rupture yiy_i

(en kg\text{kg})

6464 7777
6868 8181
6161 7272
7171 8686
6666 7979
7474 9393
6363 7474
7070 8686
6060 7070
6262 7171

La plupart du temps, nous représentons ces données par un nuage de points, qui nous permet de mieux visualiser les données.

bannière definition

Définition

Nuage de points :

On représente une série statistique à deux variables xx et yy par un nuage de points dans un repère orthogonal (O ;I,J)(O\ ;\, I,\,J), constitué de points MiMi de coordonnées (xi ;yi)(xi\ ;\, yi), xixi et yiy_i étant respectivement les valeurs des variables xx et yy pour l’individu ii (ii allant de 11 à nn, avec nn la taille de la population).

bannière exemple

Exemple

Donnons le nuage de points correspondant aux données de notre exemple :

Alt texte Image temporaire

Le nuage de points que nous venons de représenter montre que les points ne semblent pas répartis au hasard.

  • Les deux variables semblent avoir une corrélation : en effet, quand la teneur en carbone augmente, la charge de rupture paraît augmenter aussi.

Mais comment rendre cette corrélation plus évidente et, surtout, comment la quantifier ?

Point moyen

Tout d’abord, nous pouvons calculer la moyenne des deux variables, ce qui nous permet de définir le point moyen.

bannière definition

Définition

Point moyen :

Soit une série statistique à deux variables xx et yy, représentée par un nuage de points dans un repère (O ;I,J)(O\ ;\, I,\,J).
On définit le point moyen de ce nuage comme le point GG, de coordonnées (xˉ ;yˉ)(\bar{x}\ ;\, \bar{y}), où :

  • xˉ\bar{x} est la moyenne arithmétique des valeurs xix_i associées à la variable xx ;
  • yˉ\bar{y} est la moyenne arithmétique des valeurs yiy_i associées à la variable yy.

Nous savons calculer ces moyennes grâce aux formules suivantes.

bannière rappel

Rappel

Soit x1x1, x2x2 …, xnxn les nn valeurs de la variable xx, et y1y1, y2y2, …, ynyn les nn valeurs de la variable yy.
Nous avons alors :

xˉ=x1+x2+x3++xnnyˉ=y1+y2+y3++ynn\begin{aligned} \bar{x}&=\dfrac{x1+x2+x3+…+xn}{n} \ \bar{y}&=\dfrac{y1+y2+y3+…+yn}{n} \end{aligned}

bannière exemple

Exemple

Continuons de filer notre exemple, et calculons les moyennes de xx et yy :

xˉ=64+68+61+71+66+74+63+70+60+6210=65910=65,9yˉ=77+81+72+86+79+93+74+86+70+7110=78910=78,9\begin{aligned} \bar x&=\dfrac{64+68+61+71+66+74+63+70+60+62}{10} \ &=\dfrac {659}{10} \ &=65,9 \ \ \bar y&=\dfrac{77+81+72+86+79+93+74+86+70+71}{10} \ &=\dfrac {789}{10} \ &=78,9 \end{aligned}

  • Le point moyen GG a donc pour coordonnées (65,9 ;78,9)(65,9\ ;\, 78,9).

Alt texte Image temporaire

Covariance et coefficient de corrélation

Dans les classes précédentes, nous avons appris à calculer un indicateur qui permet de mesurer la dispersion des données d’une série statistique autour de sa moyenne.

  • Il s’agit de la variance.
bannière rappel

Rappel

Soit une série statistique à une variable xx, d’effectif nn : (x1,x2,,xn)(x1,\,x2,\,…,\,x_n), de moyenne xˉ\bar x.
La variance de xx, que nous notons ici var(x)\text{var}(x), est donnée par la formule :

var(x)=1ni=1n(xixˉ)2=1n((x1xˉ)2+(x2xˉ)2++(xnxˉ)2)\begin{aligned} \text{var}(x)&=\dfrac 1n \sum{i=1}^n (xi-\bar x)^2 \ &=\dfrac 1n\big((x1-\bar x)^2+(x2-\bar x)^2+…+(x_n-\bar x)^2\big) \end{aligned}

Rappelons aussi que nous définissons l’écart-type de xx, noté σ(x)\sigma(x), ainsi :

σ(x)=var(x)\sigma(x)=\sqrt{\text{var}(x)}

La covariance, elle, est une notion nouvelle, qui vient avec la notion de statistique à deux variables. Comme son nom l’indique, elle mesure la façon dont évoluent conjointement les deux variables considérées.

bannière definition

Définition

Covariance de (x ;y)(x\ ;\, y) :

Soit une série statistique à deux variables xx et yy, d’effectif nn : ((x1 ;y1),(x2 ;y2),,(xn ;yn))\big((x1\ ;\, y1),\,(x2\ ;\, y2),\,…,\,(xn\ ;\, yn)\big), respectivement de moyennes xˉ\bar x et yˉ\bar y.
La covariance de (x ;y)(x\ ;\, y), notée ici cov(x ;y)\text{cov}(x\ ;\, y), est donnée par la formule :

cov(x ;y)=1ni=1n(xixˉ)(yiyˉ)=1n((x1xˉ)(y1yˉ)+(x2xˉ)(y2yˉ)++(xnxˉ)(ynyˉ))\begin{aligned} \text{cov}(x\ ;\,y)&=\dfrac 1n \sum{i=1}^n (xi-\bar x)(yi-\bar y) \ &=\dfrac 1n\big((x1-\bar x)(y1-\bar y)+(x2-\bar x)(y2-\bar y)+…+(xn-\bar x)(y_n-\bar y)\big) \end{aligned}

Nous le voyons, pour calculer la variance, nous effectuons une somme de produits entre deux grandeurs qui ne sont pas, la plupart du temps, exprimées dans la même unité.

  • Nous allons donc définir un coefficient de corrélation, qui sera plus explicite.
bannière definition

Définition

Coefficient de corrélation :

Soit une série statistique à deux variables

  • xx, de variance var(x)\text{var}(x) et d’écart-type σ(x)\sigma(x),
  • et yy, de variance var(y)\text{var}(y) et d’écart-type σ(y)\sigma(y).

Soit cov(x ;y)\text{cov}(x\ ;\, y) la covariance de xx et yy.
Le coefficient de corrélation rr, aussi noté ρxy\rho_{xy}, est alors défini par :

r=cov(x ;y)var(x)var(y)=cov(x ;y)σ(x)σ(y)\begin{aligned} r&=\dfrac{\text{cov}(x\ ;\, y)}{\sqrt{\text{var}(x)\text{var}(y)}} \ &=\dfrac{\text{cov}(x\ ;\, y)}{\sigma(x)\sigma(y)} \end{aligned}

bannière à retenir

À retenir

Ce coefficient indique le lien, linéaire, qui existe entre les variables xx et yy :

  • il appartient à l’intervalle [1 ;1][-1\ ;\, 1] ;
  • plus il est proche des bornes de l’intervalle 1-1 et 11, plus la corrélation linéaire entre xx et yy est forte ;
  • en revanche, deux variables indépendantes ont un coefficient de corrélation proche de 00 ;
  • s’il est positif, alors xx et yy varient « dans le même sens » (plus les valeurs de xx grandissent, plus celles de yy grandissent) ;
  • s’il est négatif, alors xx et yy varient « en sens contraires » (plus les valeurs de xx grandissent, plus celles de yy diminuent).

Nous allons maintenant calculer tous ces indicateurs dans le cas de notre exemple et en tirer une première conclusion.

bannière exemple

Exemple

  • Rappelons que nous avons trouvé : xˉ=65,9\bar x=65,9 et yˉ=78,9\bar y=78,9.
  • Calculons d’abord les variances et écarts-types de xx et yy :

var(x)=110×((x1xˉ)2+(x2xˉ)2++(x9xˉ)2+(x10xˉ)2)=110×((6465,9)2+(6865,9)2++(6065,9)2+(6265,9)2)=110×((1,9)2+2,12++(5,9)2+(3,9)2)=110×(3,61+4,41++34,81+15,21)=198,910=19,89σ(x)=19,894,4598var(y)=110×((y1yˉ)2+(y2yˉ)2++(y9yˉ)2+(y10yˉ)2)=110×((7778,9)2+(8178,9)2++(7078,9)2+(7178,9)2)=520,910=52,09σ(x)=19,897,2173\begin{aligned} \text{var}(x)&=\dfrac{1}{10}\times \big((x1-\bar x)^2+ (x2-\bar x)^2+…+ (x9-\bar x)^2+ (x{10}-\bar x)^2 \big) \ &=\dfrac 1{10}\times \big((64-65,9)^2+(68-65,9)^2+…+(60-65,9)^2+(62-65,9)^2\big) \ &=\dfrac 1{10}\times \big((-1,9)^2+2,1^2+…+(-5,9)^2+(-3,9)^2\big) \ &=\dfrac 1{10}\times (3,61+4,41+…+34,81+15,21) \ &=\dfrac{198,9}{10} \ &=19,89 \ \sigma(x)&=\sqrt{19,89} \ &\approx 4,4598 \ \ \text{var}(y)&=\dfrac{1}{10}\times \big((y1-\bar y)^2+ (y2-\bar y)^2+…+ (y9-\bar y)^2+ (y{10}-\bar y)^2 \big) \ &=\dfrac 1{10}\times \big((77-78,9)^2+(81-78,9)^2+…+(70-78,9)^2+(71-78,9)^2\big) \ &=\dfrac{520,9}{10} \ &=52,09 \ \sigma(x)&=\sqrt{19,89} \ &\approx 7,2173 \ \end{aligned}

  • Intéressons-nous à la covariance de xx et yy :

cov(x ;y)=110((x1xˉ)(y1yˉ)+(x2xˉ)(y2yˉ)++(x10xˉ)(y10yˉ))=110(3,61+4,41++30,81)=318,910=31,89\begin{aligned} \text{cov}(x\ ;\, y)&=\dfrac 1{10}\big((x1-\bar x) (y1-\bar y)+ (x2-\bar x) (y2-\bar y)+…+ (x{10}-\bar x) (y{10}-\bar y)\big) \ &=\dfrac 1{10}\big(3,61+4,41+…+30,81) \ &=\dfrac{318,9}{10} \ &=31,89 \end{aligned}

  • Nous pouvons calculer maintenant le coefficient de corrélation :

r=cov(x ;y)var(x)var(y)=31,8919,89×52,090,9907\begin{aligned} r&=\dfrac{\text{cov}(x\ ;\, y)}{\sqrt{\text{var}(x)\text{var}(y)}} \ &=\dfrac {31,89}{\sqrt{19,89\times 52,09}} \ &\approx 0,9907 \end{aligned}

  • Nous pouvons en déduire que xx et yy ont une corrélation linéaire forte (r1r\approx 1) ; en outre, quand les valeurs prises par xx croissent, celles prises par yy croissent également (r>0r>0).

Ajustement affine

Ce qui va suivre a pour but de donner des outils pour effectuer des prévisions pour des valeurs inconnues, que celles-ci soient dans le domaine d’étude ou en dehors.

  • On parle alors d’interpolation et d’extrapolation.
bannière definition

Définition

Interpolation et extrapolation :

  • Lorsque l’on s’intéresse à des valeurs inconnues mais qui font partie du domaine couvert par les données fournies par l’étude, alors on effectue une interpolation.
  • Si l’on travaille hors de ce domaine, alors on effectue une extrapolation.
bannière exemple

Exemple

Pour la teneur en carbone de nos objets et la charge de rupture associée :

  • nous pouvons vouloir estimer la charge de rupture d’un objet dont la teneur de carbone est de 69,2%69,2\,\%, valeur de xx qui est bien comprise entre le minimum (60%60\,\%) et le maximum (74%74\,\%) de la série,
  • nous effectuerons alors une interpolation ;
  • nous pouvons aussi avoir besoin d’avoir une approximation de la charge de rupture pour un objet de teneur 50%50\,\% ;
  • nous pouvons encore souhaiter connaître la teneur en carbone de l’objet pour que la charge de rupture soit de 100 kg100\ \text{kg} ;
  • dans ces deux derniers cas, nous ferons une extrapolation.
bannière attention

Attention

Effectuer une extrapolation peut être dangereux : en effet, rien ne démontre que le modèle déduit des données fournies reste vrai en dehors de ce domaine.

  • Il conviendra donc toujours de prendre des précautions.

Par exemple, si un commerçant s’intéresse au chiffre d’affaires qu’il fait en fonction de l’heure de la journée et qu’il ne relève les données qu’entre 17 heures et 19 heures, alors, ce créneau correspondant à la sortie des bureaux et donc à ses heures de grande fréquentation, il ne pourra extrapoler le chiffre fait lors des horaires « creux », à 14 h 30, par exemple.

Ajustement affine

Lorsqu’un lien linéaire semble apparaître entre deux variables, et afin de pouvoir faire des interpolations et des extrapolations, il est intéressant d’ajuster le nuage de points au moyen d’une droite et de caractériser ainsi la relation affine entre les deux variables.

  • On parle d’ajustement affine.
bannière definition

Définition

Ajustement affine :

Le principe de l’ajustement affine est de tracer, lorsque les points d’un nuage semblent globalement alignés, une droite passant « au plus près » de ces points.

  • Cette droite est alors appelée droite d’ajustement, ou droite de régression.

Remarquons que « au plus près » est une formulation assez vague. Il existe plusieurs techniques.

  • Nous allons en présenter deux : une à partir de la notion de point moyen, la méthode de Mayer, et l’autre, très utilisée, dite méthode des moindres carrés.

Méthode de Mayer

Cette méthode, aussi appelée méthode des points moyens, consiste tout simplement à relier deux points moyens du nuage. Elle n’est guère fiable, car elle est notamment sensible aux valeurs extrêmes, mais elle a le mérite d’être simple et rapide.

bannière à retenir

À retenir

Méthodologie :

  • On divise le nuage en 22 groupes de points de même effectif (ou l’un avec un point supplémentaire, si l’effectif est impair).
  • On calcule le point moyen de ces 22 groupes.
  • On relie ces 22 points moyens pour obtenir la droite d’ajustement.
  • On peut aussi, si besoin, connaissant les coordonnées de 22 points, déterminer l’équation de la droite.

Appliquons-la rapidement à notre exemple.

bannière exemple

Exemple

  • Nous considérons les données par ordre croissant de la teneur en carbone, et scindons donc les points en deux groupes de 55 couples :

Groupe 1 : (60 ;70),(61 ;72),(62,71),(63,74),(64,77)Groupe 2 : (66 ;79),(68 ;81),(70,86),(71,86),(74,93)\begin{aligned} \textcolor{#A9A9A9}{\text{Groupe 1\ : }} (60\ ;\, 70),\,(61\ ;\, 72),\,(62,\,71),\,(63,\,74),\,(64,\,77) \ \textcolor{#A9A9A9}{\text{Groupe 2\ : }} (66\ ;\, 79),\,(68\ ;\, 81),\,(70,\,86),\,(71,\,86),\,(74,\,93) \end{aligned}

  • Nous calculons les coordonnées des points moyens G1G1 et G2G2, respectivement des groupes 1 et 2 :

xˉ1=60+61+62+63+645=62yˉ1=70+72+71+74+775=72,8xˉ2=66+68+70+71+745=69,8yˉ2=79+81+86+86+935=85\begin{aligned} \bar x1&= \dfrac{60+61+62+63+64}5 \ &=62 \ \bar y1&= \dfrac{70+72+71+74+77}5 \ &=72,8 \ \ \bar x2&= \dfrac{66+68+70+71+74}5 \ &=69,8 \ \bar y2&= \dfrac{79+81+86+86+93}5 \ &=85 \end{aligned}

  • Nous obtenons donc G1G1 de coordonnées (62 ;72,8)(62\ ;\, 72,8) et G2G2 de coordonnées (69,8 ;85)(69,8\ ;\, 85).
  • Nous représentons ces points et les relions par une droite, qui sera donc notre droite d’ajustement.

Alt texte Image temporaire

  • Nous pouvons remarquer que le point moyen GG appartient à cette droite.

Droite des moindres carrés

Nous allons maintenant aborder la méthode la plus utilisée pour effectuer un ajustement affine : la méthode des moindres carrés.

Pour bien la comprendre, considérons un nuage simple de points Mi(xi ;yi)Mi\, (xi\ ;\, y_i), représentons aussi une droite, qui passe par le point moyen GG et dont l’équation est de la forme y=ax+by=ax+b.

  • Nous considérons en outre les points PiPi de la droite, d’abscisse xixi et d’ordonnée axi+bax_i+b.

Alt texte Image temporaire

Ce qui nous intéresse, c’est la distance entre les points MiMi et PiPi associés.

  • Dans le schéma ci-dessus, nous avons explicité cette distance entre les points M3M3 et P3P3. De la même façon, pour tout ii compris entre 11 et 55, nous avons :

MiPi=yi(axi+b)MiPi=\vert yi-(axi+b)\vert

bannière à retenir

À retenir

Soit un nuage de nn points, qui représente une série statistique à deux variables.
Déterminer la droite des moindres carrés consiste à trouver la droite qui minimise le carré des distances MiPiMiPi (i{1,,n}i\in \lbrace 1,\,…,\,n\rbrace).

  • Il s’agit donc de déterminer les réels aa et bb tels que la somme suivante soit minimale :

i=1n(yi(axi+b))2=(y1(ax1+b))2++(yn(axn+b))2\begin{aligned} \sum{i=1}^n \big(yi-(axi+b)\big)^2 = \big(y1-(ax1+b)\big)^2+…+\big(yn-(ax_n+b)\big)^2 \ \end{aligned}

  • Nous parlons aussi de droite d’ajustement de yy en xx.

Pour cela, nous allons admettre la propriété suivante.

bannière propriete

Propriété

Soit une série statistique à deux variables :

  • xx, de moyenne xˉ\bar x, de variance var(x)\text{var}(x) et d’écart-type σ(x)\sigma(x),
  • et yy, de moyenne yˉ\bar y, de variance var(y)\text{var}(y) et d’écart-type σ(y)\sigma(y).

Soit cov(x ;y)\text{cov}(x\ ;\, y) la covariance de xx et yy.
La droite des moindres carrés, ou droite d’ajustement de yy en xx, a pour équation y=ax+by=ax+b où :

a=cov(x ;y)var(x)=cov(x ;y)σ2(x)b=yˉaxˉ\begin{aligned} a&=\dfrac {\text{cov}(x\ ;\, y)}{\text{var}(x)} \ &=\dfrac {\text{cov}(x\ ;\, y)}{\sigma^2(x)} \ b&=\bar y-a\bar x \end{aligned}

Résumons ce qui précède en donnant une méthodologie à suivre, lorsqu’un exercice demande de déterminer la droite d’ajustement par la méthode des moindres carrés.

bannière à retenir

À retenir

Méthodologie d’ajustement affine par la méthode des moindres carrés :

Soit une série statistique à deux variables xx et yy.

  • Si nécessaire, représenter le nuage de points (xi ;yi)(xi\ ;\, yi) dans un repère orthogonal.
  • Calculer les moyennes xˉ\bar x et yˉ\bar y des deux variables.
  • Placer le cas échéant le point moyen G(xˉ ;yˉ)G\,(\bar x\ ;\, \bar y) dans la représentation.
  • Calculer les variances var(x)\text{var}(x) et var(y)\text{var}(y) des deux variables.
  • Calculer la covariance cov(x ;y)\text{cov}(x\ ;\, y) des deux variables :

cov(x ;y)=1ni=1n(xixˉ)(yiyˉ)\text{cov}(x\ ;\, y)= \dfrac 1n \sum{i=1}^n (xi-\bar x)(y_i-\bar y)

  • Déduire l’équation de la droite d’ajustement de yy en xx :

y=cov(x ;y)var(x)x+yˉaxˉy=\dfrac {\text{cov}(x\ ;\, y)}{\text{var}(x)}\cdot x + \bar y-a\bar x

  • Calculer le coefficient de corrélation :

r=cov(x ;y)var(x)var(y)r=\dfrac{\text{cov}(x\ ;\, y)}{\sqrt{\text{var}(x)\text{var}(y)}}

  • En théorie, un ajustement affine est toujours possible, mais il est indispensable de mesurer sa pertinence ; le calcul du coefficient de corrélation est donc important pour pouvoir en juger.
  • Plus rr est proche en valeur absolue de 11, plus la corrélation linéaire est forte, et donc plus l’ajustement affine est pertinent.
  • Si l’ajustement s’avère suffisamment pertinent, alors on peut s’en servir pour effectuer :
  • des interpolations (« entre » les données de la série),
  • des extrapolations (« hors » des données de la série).

Appliquons cette méthode, toujours à notre exemple.

bannière exemple

Exemple

Nous avons déjà représenté le nuage de points (étape 1) et calculé les résultats pour les points 2, 3 et 4 :

Variable Moyenne Variance Covariance
xx xˉ=65,9\bar x = 65,9 var(x)=19,89\text{var}(x)=19,89 cov(x ;y)=31,89\text{cov}(x\ ;\,y)=31,89
yy yˉ=78,9\bar y=78,9 var(y)=52,09\text{var}(y)=52,09
  • Nous en déduisons les valeurs de aa et bb de l’équation réduite y=ax+by=ax+b de la droite des moindres carrés :

a=cov(x ;y)var(x)=31,8919,89=10636631,603b=yˉaxˉ=78,91063663×65,926,759\begin{aligned} a&=\dfrac {\text{cov}(x\ ;\, y)}{\text{var}(x)} \ &=\dfrac {31,89}{19,89} \ &=\dfrac{1\,063}{663} \ &\approx 1,603 \ \ b&=\bar y-a\bar x \ &=78,9-\dfrac{1\,063}{663}\times 65,9 \ &\approx -26,759 \end{aligned}

  • Nous en déduisons l’équation de la droite d’ajustement, en arrondissant à 10310^{-3} près :

y=1,603x26,759y=1,603\,x-26,759

  • Nous avons aussi trouvé le coefficient de corrélation entre xx et yy :

r0,9907r\approx 0,9907

  • Nous l’avons déjà dit, mais reprécisons que l’ajustement affine est ici pertinent ; en outre, quand xx grandit, yy grandit aussi.
  • Nous allons maintenant nous servir de cette équation pour effectuer quelques prévisions.

Calculons d’abord la charge de rupture prévue par notre modèle pour un objet dont la teneur en carbone a été mesurée à x=69,2%x^{\prime}=69,2\,\%.

  • Il s’agit d’une interpolation.

Il suffit de remplacer, dans l’équation, xx par la valeur donnée (pour plus de rigueur, nous utilisons les expressions exactes, et non les arrondis) :

y=1063663×69,2+78,91063663×65,984,191\begin{aligned} y^{\prime} &= \dfrac{1\,063}{663} \times 69,2 + 78,9-\dfrac{1\,063}{663}\times 65,9 \ &\approx 84,191 \end{aligned}

  • Le modèle prévoit une charge de rupture d’environ 84 kg84\ \text{kg}.

Nous souhaitons maintenant que la charge de rupture de notre objet soit de y=100 kgy^{\prime\prime}=100\ \text{kg}. Quelle teneur en carbone doit-il avoir ?

  • Nous voyons que 100 kg100\ \text{kg} est hors de notre domaine d’étude, il s’agit donc d’une extrapolation.

Nous remplaçons cette fois yy par la valeur donnée :

100=1063663×x+78,91063663×65,9x=6631063×(21,1+1063663×65,9)=6631063×21,1+65,979,060\begin{aligned} 100 &= \dfrac{1\,063}{663} \times x^{\prime\prime} + 78,9-\dfrac{1\,063}{663}\times 65,9 \ \Leftrightarrow x^{\prime\prime}&=\dfrac{663}{1\,063}\times \left( 21,1+\dfrac{1\,063}{663}\times 65,9 \right) \ &=\dfrac{663}{1\,063}\times 21,1+ 65,9 \ &\approx 79,060 \end{aligned}

  • Avec une teneur de 80 %80\ \%, nous pouvons supposer que l’objet résistera à une charge de 100 kg100\ \text{kg}.

Remarquons que, si nous avions posé la même question pour une charge de 200 kg200\ \text{kg}, nous aurions trouvé une teneur en carbone d’environ 141 %141\ \%… Ce qui, en l’occurrence, serait un non-sens physique.

  • Nous nous heurtons ici à une des limites de l’extrapolation.

Ci-dessus, nous avons effectué « manuellement » les calculs complets (à quelques points de suspension près), car il est important de bien comprendre le principe (et aussi parce que des exercices le demandent). À cet effet, nous avons travaillé avec un nombre restreint de données (effectif de 1010).

En pratique, pour pouvoir effectuer des prévisions dignes de confiance et afin d’avoir un modèle mathématique d’ajustement le plus précis possible, nous devons disposer de beaucoup de données.
Bien sûr, dans de tels cas, calculer « manuellement » les moyennes, les variances, la covariance, etc., serait une tâche titanesque (et parfaite pour les erreurs de calcul…).

  • Nous nous servons alors de notre calculatrice ou, mieux encore, d’un tableur pour déterminer directement les indicateurs et même l’équation de la droite des moindres carrés.
bannière astuce

Astuce

Servons-nous de notre exemple pour montrer les fonctions concernant les statistiques à deux variables, et ce sur les tableurs les plus utilisés : Calc d’OpenOffice et Microsoft Excel.
Sur une feuille, nous avons au préalable entré les (xi ;yi)(xi\ ;\, yi) sur deux colonnes (nous aurions aussi pu les mettre sur deux lignes) :

  • les valeurs prises par xx sont dans les cellules A1\green{\text A 1} à A10\green{\text A 10} ;
  • les valeurs prises par yy sont dans les cellules B1\purple{\text B 1} à B10\purple{\text B 10}.
  • Pour calculer les principaux indicateurs :

Variable xx yy
Moyenne MOYENNE(A1:A10)\small \text{MOYENNE(\red{A1:A10})} MOYENNE(B1:B10)\small \text{MOYENNE(\purple{B1:B10})}
Variance VAR.P(A1:A10)\small \text{VAR.P(\red{A1:A10})} VAR.P(B1:B10)\small \text{VAR.P(\purple{B1:B10})}
Covariance COVARIANCE(A1:A10;B1:B10)\small \text{COVARIANCE(\red{A1:A10}\,;\,\purple{B1:B10})}
Coef. de corrélation rr COEFFICIENT.CORRELATION(A1:A10;B1:B10)\small \text{COEFFICIENT.CORRELATION(\red{A1:A10}\,;\,\purple{B1:B10})}
Droite d’ajustement y=ax+by=ax+b a : PENTE(B1:B10;A1:A10)\small \textcolor{#A9A9A9} {a\ :\ }\text{PENTE(\purple{B1:B10}\,;\,\red{A1:A10})}
b : ORDONNEE.ORIGINE(B1:B10;A1:A10)\small \textcolor{#A9A9A9} {b\ :\ }\text{ORDONNEE.ORIGINE(\purple{B1:B10}\,;\,\red{A1:A10})}
  • Pour représenter le nuage de points :
  • sélectionner les plages de données ;
  • insérer le graphique « Nuages de points » :
  • avec Calc : Insertion / Diagramme / XY (dispersion) / Points seuls,
  • avec Excel : Insérer / Graphique / XY (nuage de points).
  • Pour tracer la droite de régression, une fois le nuage de points réalisé :
  • avec Calc, le diagramme étant sélectionné (double-clic dessus, si nécessaire) : Insertion / Courbe de tendance / Linéaire, et cocher : Afficher l’équation ;
  • avec Excel : Clic droit sur un point du graphique / Ajouter une courbe de tendance / Linéaire, et cocher : Afficher l’équation sur le graphique.

Ajustement affine par changement de variable

Dans certains cas, les points du nuage ne peuvent être considérés comme alignés, car l’approximation serait de manière évidente beaucoup trop grande.

  • Il ne faut pas pour autant conclure qu’il n’y a pas de corrélation entre les deux variables : il peut y avoir un lien, mais qui n’est pas linéaire.

Parfois, il est toutefois possible d’étudier ce lien non linéaire au moyen d’un ajustement affine, et ce grâce à un changement de variable.
Dans cette dernière partie, nous allons donc montrer cette méthode à travers l’exemple de l’évolution d’une population, que vous avez déjà abordée, ou que vous aborderez bientôt, en enseignement scientifique (nous considérerons dans ce cours que le temps est une donnée continue, tandis que, dans le cours d’enseignement scientifique, nous travaillons par palier entier, et donc de manière discrète).

Un nuage de points non alignés

Nous disposons, pour une région, du recensement décennal de la population, sur tout le XXe siècle, exprimé en million et arrondi à la dizaine de milliers (la précision est meilleure après les années 50) :

Année xixi Population yiyi

(en million)

00 1,2101,210
1010 1,8401,840
2020 1,8101,810
3030 2,8902,890
4040 4,4304,430
5050 4,7304,730
6060 6,5426,542
7070 9,5529,552
8080 14,26414,264
9090 21,25221,252
100100 22,03522,035
  • Servons-nous d’un tableur pour représenter le nuage de points et tracer la droite d’ajustement de yy en xx.

Alt texte Image temporaire

  • Nous voyons que les points du nuage peuvent difficilement être considérés comme alignés. De plus, les distances entre les points et la droite semblent assez grandes.
  • Donnons néanmoins le coefficient de corrélation, obtenu avec le tableur :

r0,923r\approx 0,923

Celui-ci n’est pas très éloigné de 11, mais nous ne pouvons pas dire non plus qu’il est « presque égal » à 11.

  • Un ajustement affine par la méthode des moindres carrés ne semblent pas bien adapté.

Nous pouvons tout de même faire une première remarque.
Nous constatons une diminution de la population entre les années 10 et 20, et une stagnation entre les années 40 et 50.

  • Des événements historiques peuvent expliquer ces points.

Changement de variable

Si les points ne sont pas alignés, nous reconnaissons quand même l’« allure » caractéristique de la courbe représentative de la fonction exponentielle.

  • Nous allons donc considérer une nouvelle variable zz définie, pour tout i{1,,10}i \in \lbrace1,\,…,\,10\rbrace, par :

zi=ln(yi)zi=\ln{(yi)}

Si l’évolution de la population suit effectivement une croissance exponentielle, nous pourrons alors mettre en évidence une corrélation linéaire entre xx et zz.
Notons que, dans cet exemple, nous nous intéressons aux effectifs d’une population, donc la variable yy prendra des valeurs strictement positives, et nous pouvons donc travailler directement avec la fonction logarithme népérien.

  • Complétons notre tableau de données avec les valeurs de zz, arrondies à 10310^{-3} près :

Année xixi Population yiyi

(en million)

zi=ln(yi)zi=\ln{(yi)}
00 1,2101,210 0,1910,191
1010 1,8401,840 0,6100,610
2020 1,8101,810 0,5930,593
3030 2,8902,890 1,0611,061
4040 4,4304,430 1,4881,488
5050 4,7304,730 1,5541,554
6060 6,5426,542 1,8781,878
7070 9,5529,552 2,2572,257
8080 14,26414,264 2,6582,658
9090 21,25221,252 3,0563,056
100100 22,03522,035 3,0933,093
  • Représentons le nuage de points (xi ;zi)(xi\ ;\, zi) et traçons la droite d’ajustement de zz en xx :

Alt texte Image temporaire

  • Nous nous rendons compte que le nuage a une allure bien plus « allongée » et que les points sont raisonnablement proches de la droite.
  • Pour confirmer cette impression, donnons le coefficient de corrélation de (x ;z)(x\ ;\, z) :

r0,993r^{\prime}\approx 0,993

Le coefficient est cette fois très proche de 11.

  • Nous décidons de modéliser l’évolution de la population par un ajustement réalisé grâce à ce changement de variable : z=ln(y)z=\ln{(y)}.

L’équation de la droite d’ajustement de zz en xx est alors :

z=0,030x+0,164z=0,030x+0,164

Nous en déduisons :

ln(y)=0,030x+0,164eln(y)=e0,030x+0,164[par stricte croissance de exp]y=e0,030x×e0,164[car exp et ln sont reˊciproqueset ea+b=ea×eb]\begin{aligned} \ln{(y)}=0,030x+0,164 &\Leftrightarrow \text{e}^{\ln{(y)}}=\text{e}^{0,030x+0,164} \ &\footnotesize{\textcolor{#A9A9A9}{\text{[par stricte croissance de $\exp$]}}} \ &\Leftrightarrow y=\text{e}^{0,030x}\times \text{e}^{0,164} \ &\footnotesize{\textcolor{#A9A9A9}{\text{[car $\exp$ et $\ln$ sont réciproques}}} \ &\footnotesize{\textcolor{#A9A9A9}{\text{et e$^{a+b}=$e$^a\times$e$^b$]}}} \end{aligned}

En arrondissant à 10310^{-3} près, nous obtenons finalement :

y=1,178×e0,030xy=1,178\times \text{e}^{0,030x}

  • La fonction f:x1,178×e0,030xf:x\mapsto 1,178\times \text{e}^{0,030x} permet d’ajuster le nuage de points (xi ;yi)(xi\ ;\, yi).

Traçons sa courbe représentative :

Alt texte Image temporaire

  • Servons-nous de ce modèle pour d’abord faire une interpolation.

Nous cherchons à savoir approximativement en quelle année xx^{\prime} la barre des 88 millions d’habitants a été franchie. Nous décidons de le faire graphiquement. Pour cela, nous déterminons graphiquement l’abscisse xx^{\prime} du point de la courbe représentative de ff d’ordonnée y=8y^{\prime}=8 :

Alt texte Image temporaire

Nous trouvons : x64x^{\prime}\approx 64.

  • La barre des 88 millions d’habitants a été franchie approximativement à l’année 6464.

Remarquons que si nous avions utilisé la modélisation sans changement de variable, nous aurions trouvé environ 4949 ans… ce qui aurait été en contradiction avec les données.

  • Effectuons enfin une extrapolation.

Nous nous demandons maintenant quelle sera la population yy^{\prime\prime} après 120120 ans.
Nous nous servons bien sûr de la fonction dont nous disposons pour calculer f(120)f(120) :

y=1,178×e0,030×12043,113\begin{aligned} y^{\prime\prime}&=1,178\times \text{e}^{0,030\times 120} \ &\approx43,113 \end{aligned}

  • Si nous supposons que ce modèle reste valable hors du domaine des données, nous pouvons prévoir une population d’environ 4343 millions de personnes.
bannière attention

Attention

Nous avons précisé que nous supposions le modèle valable hors du domaine de la série statistique, et ceci est toujours indispensable.

Dans notre exemple, nous constatons un infléchissement de la croissance à l’année 100100.
Est-elle simplement conjoncturelle, comme les événements historiques à l’origine de la diminution et du ralentissement que nous avons déjà constatés ? Ou cet infléchissement a-t-il des raisons plus profondes et le modèle perd-il sa pertinence pour toute extrapolation ?
En effet, en enseignement scientifique, vous avez découvert, ou découvrirez, que la croissance d’une population peut être exponentielle durant des périodes brèves, mais qu’elle se heurte à la limite des ressources disponibles. Ainsi, une population aura tendance à tendre vers un maximum.

Ici, nous n’avons pas assez d’informations pour savoir ce qu’il en est précisément.

  • Des données supplémentaires seront à relever au fil du temps, afin d’affiner le modèle.

Récapitulatif

Voici une méthodologie à suivre lorsqu’un changement de variable s’impose.

bannière à retenir

À retenir

Méthodologie :

  • En fonction de l’allure du nuage de points, décider d’un changement de variable.
  • Généralement, les exercices vous guideront dans ce choix. Mais précisons qu’on fera appel surtout aux fonctions usuelles : logarithme, exponentielle, carré, racine carrée…
  • Calculer les nouvelles valeurs déduites du changement de variable.
  • Représenter le nouveau nuage de points et tracer la droite d’ajustement.
  • Calculer le coefficient de corrélation correspondant, afin de confirmer la pertinence du changement de variable.
  • À partir de la définition de la nouvelle variable, en déduire la fonction d’ajustement des données initiales.
  • Représenter dans le nuage initial la courbe représentative de cette fonction, si l’on souhaite faire graphiquement des interpolations et des extrapolations.
  • La définition de cette fonction permet aussi de faire, par le calcul, des interpolations et des extrapolations.

Notons aussi qu’une calculatrice ou un tableur sont aussi capables de déterminer très rapidement la fonction d’ajustement, selon le modèle que vous choisirez.

bannière astuce

Astuce

Dans notre exemple de croissance exponentielle, une fois le nuage représenté dans un tableur :

  • avec Calc, le diagramme étant sélectionné (double-clic dessus, si nécessaire) : Insertion / Courbe de tendance / Exponentielle, et cocher : Afficher l’équation ;
  • avec Excel : Clic droit sur un point du graphique / Ajouter une courbe de tendance / Exponentielle, et cocher : Afficher l’équation sur le graphique.

Enfin, pour conclure ce cours, le long duquel nous avons parlé de lien ou de corrélation entre deux variables, il est indispensable d’ajouter un avertissement.

bannière attention

Attention

Il ne faut pas confondre corrélation entre deux variables et lien de cause à effet : mettre en évidence un lien ne suffit absolument pas à conclure que l’évolution d’une variable est la cause de l’évolution de l’autre. Une étude rigoureuse et la plus exhaustive possible est indispensable pour déterminer un lien de causalité.

Par exemple, il y aurait sans doute une corrélation entre le nombre de ventilateurs achetés et la quantité de glaces consommées, mais l’un n’est évidemment pas la cause de l’autre : la véritable cause est plutôt la température extérieure, qui influe sur les deux variables !
En revanche, ce sont des études approfondies qui montrent que les anomalies météorologiques, comme les canicules, sont sans doute dues au réchauffement climatique, lui-même causé par l’activité humaine…

Conclusion :

Dans ce cours, nous avons donc ajouté une dimension importante aux statistiques sur lesquelles nous avons travaillé jusqu’ici. En effet, mettre en évidence la corrélation entre deux variables est un aspect fondamental dans l’étude de données, même s’il n’est pas suffisant pour conclure à un lien de cause à effet.
Nous avons ici travaillé sur le lien entre deux variables, mais il peut y avoir bien sûr corrélation entre de multiples variables, compliquant la tâche. Il existe en statistique divers outils pour traiter de telles données, que certains découvriront durant leurs études supérieures.