Médaille
N°1 pour apprendre & réviser du collège au lycée.

Statistique à deux variables

Déjà plus de

1 million

d'inscrits !

Si tu es un lycéen en terminale, tu dois déjà avoir planifié tes révisions pour ton baccalauréat 2022. Si ce n’est pas le cas, tu peux te baser sur notre programme de révision en le planifiant en fonction des épreuves ou des coefficients des matières … 💪

Série statistique à deux variables

  • Soit une population de nn individus, pour lesquels nous étudions deux caractères quantitatifs xx et yy.
  • Les couples (xi ;yi)(xi\ ;\, yi) pour chaque individu ii (1in1\leq i\leq n) constituent une série statistique à deux variables :

Individu ii 11 22 ... nn
Caractère xixi x1x1 x2x2 ... xnxn
Caractère yiyi y1y1 y2y2 ... ynyn
  • On représente une série statistique à deux variables xx et yy par un nuage de points dans un repère orthogonal (O ;I,J)(O\ ;\, I,\,J), constitué de points MiMi de coordonnées (xi ;yi)(xi\ ;\, y_i) :

Exemple de nuage de points Exemple de nuage de points

  • On définit le point moyen de ce nuage comme le point GG, de coordonnées (xˉ ;yˉ)(\bar{x}\ ;\, \bar{y}), où :
  • xˉ\bar{x} est la moyenne arithmétique des valeurs xix_i associées à la variable xx ;
  • yˉ\bar{y} est la moyenne arithmétique des valeurs yiy_i associées à la variable yy.
  • Soit une série statistique à deux variables xx et yy, d’effectif nn : ((x1 ;y1),(x2 ;y2),,(xn ;yn))\big((x1\ ;\, y1),\,(x2\ ;\, y2),\,…,\,(xn\ ;\, yn)\big), respectivement de moyennes xˉ\bar x et yˉ\bar y.
  • La covariance de (x ;y)(x\ ;\, y), notée ici cov(x ;y)\text{cov}(x\ ;\, y), est donnée par :

cov(x)=1ni=1n(xixˉ)(yiyˉ)\text{cov}(x)=\dfrac 1n \sum{i=1}^n (xi-\bar x)(y_i-\bar y)

  • Soit une série statistique à deux variables xx, de variance var(x)\text{var}(x), et yy, de variance var(y)\text{var}(y).
    Soit cov(x ;y)\text{cov}(x\ ;\, y) la covariance de xx et yy.
  • Le coefficient de corrélation rr est défini par :

r=cov(x ;y)var(x)var(y)r=\dfrac{\text{cov}(x\ ;\, y)}{\sqrt{\text{var}(x)\text{var}(y)}}

  • Ce coefficient indique le lien, linéaire, qui existe entre les variables xx et yy :
  • il appartient à l’intervalle [1 ;1][-1\ ;\, 1] ;
  • plus il est proche des bornes de l’intervalle 1-1 et 11, plus la corrélation linéaire entre xx et yy est forte ;
  • s’il est positif, alors xx et yy varient « dans le même sens » ;
  • s’il est négatif, alors xx et yy varient « en sens contraires ».

Ajustement affine

  • Si l’on étudie une série statistique, c’est pour pouvoir effectuer des estimations et des prévisions.
  • Lorsque l’on s’intéresse à des valeurs inconnues mais qui font partie du domaine couvert par les données fournies par l’étude, alors on effectue une interpolation.
  • Si l’on travaille hors de ce domaine, alors on effectue une extrapolation.
  • À cet effet, le principe de l’ajustement affine est de tracer, lorsque les points d’un nuage semblent globalement alignés, une droite passant « au plus près » de ces points.
  • Cette droite est alors appelée droite d’ajustement, ou droite de régression.
  • Méthode de Mayer :
  • On divise le nuage en 22 groupes de points de même effectif (ou l’un avec un point supplémentaire, si l’effectif est impair).
  • On calcule le point moyen de ces 22 groupes.
  • On relie ces 22 points moyens pour obtenir la droite d’ajustement.
  • On peut aussi, si besoin, connaissant les coordonnées de 22 points, déterminer l’équation de la droite.
  • Soit une série statistique à deux variables xx, de moyenne xˉ\bar x et de variance var(x)\text{var}(x), et yy, de moyenne yˉ\bar y et de variance var(y)\text{var}(y).
    Soit cov(x ;y)\text{cov}(x\ ;\, y) la covariance de xx et yy.
  • La droite des moindres carrés, ou droite d’ajustement de yy en xx, a pour équation y=ax+by=ax+b où :

a=cov(x ;y)var(x)=cov(x ;y)σ2(x)b=yˉaxˉ\begin{aligned} a&=\dfrac {\text{cov}(x\ ;\, y)}{\text{var}(x)} \ &=\dfrac {\text{cov}(x\ ;\, y)}{\sigma^2(x)} \ b&=\bar y-a\bar x \end{aligned}

  • Méthode des moindres carrés :
    Soit une série statistique à deux variables xx et yy
  • Si nécessaire, représenter le nuage de points (xi ;yi)(xi\ ;\, yi) dans un repère orthogonal.
  • Calculer les moyennes xˉ\bar x et yˉ\bar y des deux variables.
  • Placer le cas échéant le point moyen G(xˉ ;yˉ)G\,(\bar x\ ;\, \bar y) dans la représentation.
  • Calculer les variances var(x)\text{var}(x) et var(y)\text{var}(y) des deux variables.
  • Calculer la covariance cov(x ;y)\text{cov}(x\ ;\, y) des deux variables.
  • Déduire l’équation de la droite d’ajustement de yy en xx.
  • Calculer le coefficient de corrélation rr.
  • Si l’ajustement s’avère suffisamment pertinent (r1\vert r\vert \approx 1), alors on peut s’en servir pour effectuer :
  • des interpolations (« entre » les données de la série),
  • des extrapolations (« hors » des données de la série).

Ajustement affine par changement de variable (méthodologie)

  • Si les points du nuage ne semblent pas alignés, et en fonction de l’allure du nuage, décider d’un changement de variable (s’il n’est pas indiqué dans l’énoncé).
  • Calculer les nouvelles valeurs déduites du changement de variable.
  • Représenter le nouveau nuage de points et tracer la droite d’ajustement.
  • Calculer le coefficient de corrélation correspondant, afin de confirmer la pertinence du changement de variable.
  • À partir de la définition de la nouvelle variable, en déduire la fonction d’ajustement des données initiales.
  • Représenter dans le nuage initial la courbe représentative de cette fonction, si l’on souhaite faire graphiquement des interpolations et des extrapolations.
  • La définition de cette fonction permet aussi de faire, par le calcul, des interpolations et des extrapolations.

Exemples d’ajustement Exemples d’ajustement