Médaille
N°1 pour apprendre & réviser du collège au lycée.
Statistique à deux variables

Déjà plus de

1 million

d'inscrits !

Série statistique à deux variables

  • Soit une population de nn individus, pour lesquels nous étudions deux caractères quantitatifs xx et yy.
  • Les couples (xi ;yi)(xi\ ;\, yi) pour chaque individu ii (1in1\leq i\leq n) constituent une série statistique à deux variables :

Individu ii 11 22 ... nn
Caractère xixi x1x1 x2x2 ... xnxn
Caractère yiyi y1y1 y2y2 ... ynyn
  • On représente une série statistique à deux variables xx et yy par un nuage de points dans un repère orthogonal (O ;I,J)(O\ ;\, I,\,J), constitué de points MiMi de coordonnées (xi ;yi)(xi\ ;\, y_i) :

Alt texte Image temporaire

  • On définit le point moyen de ce nuage comme le point GG, de coordonnées (xˉ ;yˉ)(\bar{x}\ ;\, \bar{y}), où :
  • xˉ\bar{x} est la moyenne arithmétique des valeurs xix_i associées à la variable xx ;
  • yˉ\bar{y} est la moyenne arithmétique des valeurs yiy_i associées à la variable yy.
  • Soit une série statistique à deux variables xx et yy, d’effectif nn : ((x1 ;y1),(x2 ;y2),,(xn ;yn))\big((x1\ ;\, y1),\,(x2\ ;\, y2),\,…,\,(xn\ ;\, yn)\big), respectivement de moyennes xˉ\bar x et yˉ\bar y.
  • La covariance de (x ;y)(x\ ;\, y), notée ici cov(x ;y)\text{cov}(x\ ;\, y), est donnée par :

cov(x)=1ni=1n(xixˉ)(yiyˉ)\text{cov}(x)=\dfrac 1n \sum{i=1}^n (xi-\bar x)(y_i-\bar y)

  • Soit une série statistique à deux variables xx, de variance var(x)\text{var}(x), et yy, de variance var(y)\text{var}(y).
    Soit cov(x ;y)\text{cov}(x\ ;\, y) la covariance de xx et yy.
  • Le coefficient de corrélation rr est défini par :

r=cov(x ;y)var(x)var(y)r=\dfrac{\text{cov}(x\ ;\, y)}{\sqrt{\text{var}(x)\text{var}(y)}}

  • Ce coefficient indique le lien, linéaire, qui existe entre les variables xx et yy :
  • il appartient à l’intervalle [1 ;1][-1\ ;\, 1] ;
  • plus il est proche des bornes de l’intervalle 1-1 et 11, plus la corrélation linéaire entre xx et yy est forte ;
  • s’il est positif, alors xx et yy varient « dans le même sens » ;
  • s’il est négatif, alors xx et yy varient « en sens contraires ».

Ajustement affine

  • Si l’on étudie une série statistique, c’est pour pouvoir effectuer des estimations et des prévisions.
  • Lorsque l’on s’intéresse à des valeurs inconnues mais qui font partie du domaine couvert par les données fournies par l’étude, alors on effectue une interpolation.
  • Si l’on travaille hors de ce domaine, alors on effectue une extrapolation.
  • À cet effet, le principe de l’ajustement affine est de tracer, lorsque les points d’un nuage semblent globalement alignés, une droite passant « au plus près » de ces points.
  • Cette droite est alors appelée droite d’ajustement, ou droite de régression.
  • Méthode de Mayer :
  • On divise le nuage en 22 groupes de points de même effectif (ou l’un avec un point supplémentaire, si l’effectif est impair).
  • On calcule le point moyen de ces 22 groupes.
  • On relie ces 22 points moyens pour obtenir la droite d’ajustement.
  • On peut aussi, si besoin, connaissant les coordonnées de 22 points, déterminer l’équation de la droite.
  • Soit une série statistique à deux variables xx, de moyenne xˉ\bar x et de variance var(x)\text{var}(x), et yy, de moyenne yˉ\bar y et de variance var(y)\text{var}(y).
    Soit cov(x ;y)\text{cov}(x\ ;\, y) la covariance de xx et yy.
  • La droite des moindres carrés, ou droite d’ajustement de yy en xx, a pour équation y=ax+by=ax+b où :

a=cov(x ;y)var(x)=cov(x ;y)σ2(x)b=yˉaxˉ\begin{aligned} a&=\dfrac {\text{cov}(x\ ;\, y)}{\text{var}(x)} \ &=\dfrac {\text{cov}(x\ ;\, y)}{\sigma^2(x)} \ b&=\bar y-a\bar x \end{aligned}

  • Méthode des moindres carrés :
    Soit une série statistique à deux variables xx et yy
  • Si nécessaire, représenter le nuage de points (xi ;yi)(xi\ ;\, yi) dans un repère orthogonal.
  • Calculer les moyennes xˉ\bar x et yˉ\bar y des deux variables.
  • Placer le cas échéant le point moyen G(xˉ ;yˉ)G\,(\bar x\ ;\, \bar y) dans la représentation.
  • Calculer les variances var(x)\text{var}(x) et var(y)\text{var}(y) des deux variables.
  • Calculer la covariance cov(x ;y)\text{cov}(x\ ;\, y) des deux variables.
  • Déduire l’équation de la droite d’ajustement de yy en xx.
  • Calculer le coefficient de corrélation rr.
  • Si l’ajustement s’avère suffisamment pertinent (r1\vert r\vert \approx 1), alors on peut s’en servir pour effectuer :
  • des interpolations (« entre » les données de la série),
  • des extrapolations (« hors » des données de la série).

Ajustement affine par changement de variable (méthodologie)

  • Si les points du nuage ne semblent pas alignés, et en fonction de l’allure du nuage, décider d’un changement de variable (s’il n’est pas indiqué dans l’énoncé).
  • Calculer les nouvelles valeurs déduites du changement de variable.
  • Représenter le nouveau nuage de points et tracer la droite d’ajustement.
  • Calculer le coefficient de corrélation correspondant, afin de confirmer la pertinence du changement de variable.
  • À partir de la définition de la nouvelle variable, en déduire la fonction d’ajustement des données initiales.
  • Représenter dans le nuage initial la courbe représentative de cette fonction, si l’on souhaite faire graphiquement des interpolations et des extrapolations.
  • La définition de cette fonction permet aussi de faire, par le calcul, des interpolations et des extrapolations.

Alt texte Exemple d’ajustement affine par changement de variable (image temporaire)