Statistique à deux variables

Série statistique à deux variables

  • Soit une population de $n$ individus, pour lesquels nous étudions deux caractères quantitatifs $x$ et $y$.
  • Les couples $(x_i\ ;\, y_i)$ pour chaque individu $i$ ($1\leq i\leq n$) constituent une série statistique à deux variables :

Individu $i$ $1$ $2$ $…$ $n$
Caractère $x_i$ $x_1$ $x_2$ $…$ $x_n$
Caractère $y_i$ $y_1$ $y_2$ $…$ $y_n$
  • On représente une série statistique à deux variables $x$ et $y$ par un nuage de points dans un repère orthogonal $(O\ ;\, I,\,J)$, constitué de points $M_i$ de coordonnées $(x_i\ ;\, y_i)$ :

Exemple de nuage de points Exemple de nuage de points

  • On définit le point moyen de ce nuage comme le point $G$, de coordonnées $(\bar{x}\ ;\, \bar{y})$, où :
  • $\bar{x}$ est la moyenne arithmétique des valeurs $x_i$ associées à la variable $x$ ;
  • $\bar{y}$ est la moyenne arithmétique des valeurs $y_i$ associées à la variable $y$.
  • Soit une série statistique à deux variables $x$ et $y$, d’effectif $n$ : $\big((x_1\ ;\, y_1),\,(x_2\ ;\, y_2),\,…,\,(x_n\ ;\, y_n)\big)$, respectivement de moyennes $\bar x$ et $\bar y$.
  • La covariance de $(x\ ;\, y)$, notée ici $\text{cov}(x\ ;\, y)$, est donnée par :

$$\text{cov}(x)=\dfrac 1n \sum_{i=1}^n (x_i-\bar x)(y_i-\bar y)$$

  • Soit une série statistique à deux variables $x$, de variance $\text{var}(x)$, et $y$, de variance $\text{var}(y)$.
    Soit $\text{cov}(x\ ;\, y)$ la covariance de $x$ et $y$.
  • Le coefficient de corrélation $r$ est défini par :

$$r=\dfrac{\text{cov}(x\ ;\, y)}{\sqrt{\text{var}(x)\text{var}(y)}}$$

  • Ce coefficient indique le lien, linéaire, qui existe entre les variables $x$ et $y$ :
  • il appartient à l’intervalle $[-1\ ;\, 1]$ ;
  • plus il est proche des bornes de l’intervalle $-1$ et $1$, plus la corrélation linéaire entre $x$ et $y$ est forte ;
  • s’il est positif, alors $x$ et $y$ varient « dans le même sens » ;
  • s’il est négatif, alors $x$ et $y$ varient « en sens contraires ».

Ajustement affine

  • Si l’on étudie une série statistique, c’est pour pouvoir effectuer des estimations et des prévisions.
  • Lorsque l’on s’intéresse à des valeurs inconnues mais qui font partie du domaine couvert par les données fournies par l’étude, alors on effectue une interpolation.
  • Si l’on travaille hors de ce domaine, alors on effectue une extrapolation.
  • À cet effet, le principe de l’ajustement affine est de tracer, lorsque les points d’un nuage semblent globalement alignés, une droite passant « au plus près » de ces points.
  • Cette droite est alors appelée droite d’ajustement, ou droite de régression.
  • Méthode de Mayer :
  • On divise le nuage en $2$ groupes de points de même effectif (ou l’un avec un point supplémentaire, si l’effectif est impair).
  • On calcule le point moyen de ces $2$ groupes.
  • On relie ces $2$ points moyens pour obtenir la droite d’ajustement.
  • On peut aussi, si besoin, connaissant les coordonnées de $2$ points, déterminer l’équation de la droite.
  • Soit une série statistique à deux variables $x$, de moyenne $\bar x$ et de variance $\text{var}(x)$, et $y$, de moyenne $\bar y$ et de variance $\text{var}(y)$.
    Soit $\text{cov}(x\ ;\, y)$ la covariance de $x$ et $y$.
  • La droite des moindres carrés, ou droite d’ajustement de $y$ en $x$, a pour équation $y=ax+b$ où :

$$\begin{aligned} a&=\dfrac {\text{cov}(x\ ;\, y)}{\text{var}(x)} \\ &=\dfrac {\text{cov}(x\ ;\, y)}{\sigma^2(x)} \\ b&=\bar y-a\bar x \end{aligned}$$

  • Méthode des moindres carrés :
    Soit une série statistique à deux variables $x$ et $y$
  • Si nécessaire, représenter le nuage de points $(x_i\ ;\, y_i)$ dans un repère orthogonal.
  • Calculer les moyennes $\bar x$ et $\bar y$ des deux variables.
  • Placer le cas échéant le point moyen $G\,(\bar x\ ;\, \bar y)$ dans la représentation.
  • Calculer les variances $\text{var}(x)$ et $\text{var}(y)$ des deux variables.
  • Calculer la covariance $\text{cov}(x\ ;\, y)$ des deux variables.
  • Déduire l’équation de la droite d’ajustement de $y$ en $x$.
  • Calculer le coefficient de corrélation $r$.
  • Si l’ajustement s’avère suffisamment pertinent ($\vert r\vert \approx 1$), alors on peut s’en servir pour effectuer :
  • des interpolations (« entre » les données de la série),
  • des extrapolations (« hors » des données de la série).

Ajustement affine par changement de variable (méthodologie)

  • Si les points du nuage ne semblent pas alignés, et en fonction de l’allure du nuage, décider d’un changement de variable (s’il n’est pas indiqué dans l’énoncé).
  • Calculer les nouvelles valeurs déduites du changement de variable.
  • Représenter le nouveau nuage de points et tracer la droite d’ajustement.
  • Calculer le coefficient de corrélation correspondant, afin de confirmer la pertinence du changement de variable.
  • À partir de la définition de la nouvelle variable, en déduire la fonction d’ajustement des données initiales.
  • Représenter dans le nuage initial la courbe représentative de cette fonction, si l’on souhaite faire graphiquement des interpolations et des extrapolations.
  • La définition de cette fonction permet aussi de faire, par le calcul, des interpolations et des extrapolations.

Exemples d’ajustement Exemples d’ajustement

Ce contenu est réservé à nos inscrits. Il reste 50% à lire.
Inscrivez-vous gratuitement pour lire la suite
Inscrivez-vous pour lire la suite et accéder à nos vidéos, quiz, exercices, méthodes… Tout ce qu’il faut pour augmenter sa moyenne. 😉