Fiche de révision Statistique à deux variables

Série statistique à deux variables

Soit une population de $n$ individus, pour lesquels nous étudions deux caractères quantitatifs $x$ et $y$.
Les couples $(x_i\ ;\, y_i)$ pour chaque individu $i$ ($1\leq i\leq n$) constituent une série statistique à deux variables :

Individu $i$	$1$	$2$	$…$	$n$
Caractère $x_i$	$x_1$	$x_2$	$…$	$x_n$
Caractère $y_i$	$y_1$	$y_2$	$…$	$y_n$

On représente une série statistique à deux variables $x$ et $y$ par un nuage de points dans un repère orthogonal $(O\ ;\, I,\,J)$, constitué de points $M_i$ de coordonnées $(x_i\ ;\, y_i)$ :

Exemple de nuage de points

On définit le point moyen de ce nuage comme le point $G$, de coordonnées $(\bar{x}\ ;\, \bar{y})$, où :
$\bar{x}$ est la moyenne arithmétique des valeurs $x_i$ associées à la variable $x$ ;
$\bar{y}$ est la moyenne arithmétique des valeurs $y_i$ associées à la variable $y$.
Soit une série statistique à deux variables $x$ et $y$, d’effectif $n$ : $\big((x_1\ ;\, y_1),\,(x_2\ ;\, y_2),\,…,\,(x_n\ ;\, y_n)\big)$, respectivement de moyennes $\bar x$ et $\bar y$.
La covariance de $(x\ ;\, y)$, notée ici $\text{cov}(x\ ;\, y)$, est donnée par :

$$\text{cov}(x)=\dfrac 1n \sum_{i=1}^n (x_i-\bar x)(y_i-\bar y)$$

Soit une série statistique à deux variables $x$, de variance $\text{var}(x)$, et $y$, de variance $\text{var}(y)$.
Soit $\text{cov}(x\ ;\, y)$ la covariance de $x$ et $y$.
Le coefficient de corrélation $r$ est défini par :

$$r=\dfrac{\text{cov}(x\ ;\, y)}{\sqrt{\text{var}(x)\text{var}(y)}}$$

Ce coefficient indique le lien, linéaire, qui existe entre les variables $x$ et $y$ :
il appartient à l’intervalle $[-1\ ;\, 1]$ ;
plus il est proche des bornes de l’intervalle $-1$ et $1$, plus la corrélation linéaire entre $x$ et $y$ est forte ;
s’il est positif, alors $x$ et $y$ varient « dans le même sens » ;
s’il est négatif, alors $x$ et $y$ varient « en sens contraires ».

Ajustement affine

Si l’on étudie une série statistique, c’est pour pouvoir effectuer des estimations et des prévisions.
Lorsque l’on s’intéresse à des valeurs inconnues mais qui font partie du domaine couvert par les données fournies par l’étude, alors on effectue une interpolation.
Si l’on travaille hors de ce domaine, alors on effectue une extrapolation.
À cet effet, le principe de l’ajustement affine est de tracer, lorsque les points d’un nuage semblent globalement alignés, une droite passant « au plus près » de ces points.
Cette droite est alors appelée droite d’ajustement, ou droite de régression.
Méthode de Mayer :
On divise le nuage en $2$ groupes de points de même effectif (ou l’un avec un point supplémentaire, si l’effectif est impair).
On calcule le point moyen de ces $2$ groupes.
On relie ces $2$ points moyens pour obtenir la droite d’ajustement.
On peut aussi, si besoin, connaissant les coordonnées de $2$ points, déterminer l’équation de la droite.
Soit une série statistique à deux variables $x$, de moyenne $\bar x$ et de variance $\text{var}(x)$, et $y$, de moyenne $\bar y$ et de variance $\text{var}(y)$.
Soit $\text{cov}(x\ ;\, y)$ la covariance de $x$ et $y$.
La droite des moindres carrés, ou droite d’ajustement de $y$ en $x$, a pour équation $y=ax+b$ où :

$$\begin{aligned} a&=\dfrac {\text{cov}(x\ ;\, y)}{\text{var}(x)} \\ &=\dfrac {\text{cov}(x\ ;\, y)}{\sigma^2(x)} \\ b&=\bar y-a\bar x \end{aligned}$$

Méthode des moindres carrés :
Soit une série statistique à deux variables $x$ et $y$
Si nécessaire, représenter le nuage de points $(x_i\ ;\, y_i)$ dans un repère orthogonal.
Calculer les moyennes $\bar x$ et $\bar y$ des deux variables.
Placer le cas échéant le point moyen $G\,(\bar x\ ;\, \bar y)$ dans la représentation.
Calculer les variances $\text{var}(x)$ et $\text{var}(y)$ des deux variables.
Calculer la covariance $\text{cov}(x\ ;\, y)$ des deux variables.
Déduire l’équation de la droite d’ajustement de $y$ en $x$.
Calculer le coefficient de corrélation $r$.
Si l’ajustement s’avère suffisamment pertinent ($\vert r\vert \approx 1$), alors on peut s’en servir pour effectuer :
des interpolations (« entre » les données de la série),
des extrapolations (« hors » des données de la série).

Ajustement affine par changement de variable (méthodologie)

Si les points du nuage ne semblent pas alignés, et en fonction de l’allure du nuage, décider d’un changement de variable (s’il n’est pas indiqué dans l’énoncé).
Calculer les nouvelles valeurs déduites du changement de variable.
Représenter le nouveau nuage de points et tracer la droite d’ajustement.
Calculer le coefficient de corrélation correspondant, afin de confirmer la pertinence du changement de variable.
À partir de la définition de la nouvelle variable, en déduire la fonction d’ajustement des données initiales.
Représenter dans le nuage initial la courbe représentative de cette fonction, si l’on souhaite faire graphiquement des interpolations et des extrapolations.
La définition de cette fonction permet aussi de faire, par le calcul, des interpolations et des extrapolations.

Exemples d’ajustement

Fiche de révision Statistique à deux variables

Série statistique à deux variables

Ajustement affine

Ajustement affine par changement de variable (méthodologie)

Contenus complémentaires

Découvre la fiche de cours de "Statistique à deux variables"