Statistiques
Introduction :
Les statistiques sont revues chaque année depuis la troisième, de manière toujours plus approfondie. Cette leçon est donc constituée de rappels (comme les définitions de la médiane ou de la moyenne) et de nouveaux éléments comme la variance et l’écart-type.
Nous commencerons par des rappels sur les représentations graphiques de séries statistiques puis nous parlerons de la médiane, des quartiles et des diagrammes en boîte et nous terminerons par la moyenne, la variance et l’écart-type.
Rappels sur les représentations graphiques
Rappels sur les représentations graphiques
Nuage de points :
Un nuage de points est, dans un repère, l’ensemble des points ayant pour abscisse une valeur du caractère et comme ordonnée l’effectif correspondant.
Un nuage de points
Diagramme en bâtons :
Un diagramme en bâtons indique sous forme de segment les effectifs ou les fréquences qui correspondent aux valeurs du caractère étudié.
Un diagramme en bâtons
Un histogramme :
Un histogramme indique sous forme de rectangle les effectifs ou les fréquences en fonction des différentes valeurs du caractère étudié.
Un histogramme
Il est souvent demandé de tracer la courbe des effectifs cumulés croissants (ou décroissants) ou encore la courbe des fréquences cumulées croissantes (ou décroissantes) car cela donne de nombreuses informations sur une série statistique.
Fréquences cumulées décroissantes
Fréquences cumulées croissantes
Caractéristiques de position
Caractéristiques de position
Mode et moyenne
Mode et moyenne
Moyenne d’une série statistique :
La moyenne d’une série statistique, dont les valeurs du caractère sont $x_1,\ x_2,\ …,\ x_k$ et les effectifs correspondants $n_1,\ n_2,\ …,\ n_k$, est notée $\bar x$ et vaut :
$\begin{array}{lr} \bar x=\dfrac1N \displaystyle{\sum_{i=1}^k}=n_ix_i\end{array}$
où $N$ est l'effectif total de la série.
$\bar x$ se lit $x$ barre ; pour la formule précédente, cela donne $x$ barre égal $1$ sur $N$ fois la somme pour $i$ allant de $1$ à $k$ des $n_ix_i$.
Voyons maintenant la définition du mode :
Mode :
Le mode d’une série statistique est une valeur de la série dont l’effectif est strictement supérieur à celui des autres valeurs.
Voici les notes données à un groupe de 15 élèves.
Notes | 3 | 5 | 6 | 7 | 7,5 | 8 | 9 |
Effectifs | 2 | 1 | 4 | 1 | 2 | 3 | 2 |
$\bar x=\dfrac{1}{15}\times (3\times 2+5\times 1+…+9\times 2)=6,6$.
- La moyenne des notes est de $6,6$.
Médiane
Médiane
Médiane :
On considère une série statistique de $N$ données rangées dans l’ordre croissant. La médiane est le nombre qui partage cette série ordonnée en deux groupes de même effectif :
Si $N$ est impair : la médiane est la « donnée centrale » de la série, c’est-à-dire la valeur de rang $\dfrac{N+1}2$.
Si $N$ est pair : la médiane est la moyenne des deux « données centrales » de la série, c’est-à-dire la demi-somme des termes de rangs $\dfrac N2$ et $\dfrac{N}2+1$.
On considère la série statistique suivante : $1\ ;\ 3\ ;\ 6\ ;\ 8\ ;\ 10\ ;\ 15\ ;\ 22\ ;\ 23\ ;\ 31$
Cette série comporte $9$ données.
$N=9$ étant impair, la médiane est la valeur de rang $\dfrac{9+1}2=5$, c’est-à-dire la $5^\text{e}$ valeur. La médiane est donc $Med=10$.
On considère maintenant la série statistique suivante : $3\;; 5\;; 9\;;12\;; 25\;;26$
Cette série comporte 6 données.
$N=6$ étant pair, la médiane est la demi-somme des termes de rangs $\dfrac N2$ et $\dfrac{N}2+1$.
$\dfrac N2=\dfrac 62=3$ et $\dfrac{N}2+1=\dfrac{6}2+1=4$
On fait donc la moyenne entre la $3^\text{e}$ et la $4^\text{e}$ valeur : $\dfrac{9+12}2=\dfrac{21}2=10,5$.
La médiane est donc $Med=10,5$.
Quartiles
Quartiles
Dans une série où les termes sont ordonnés dans le sens croissant :
- Le premier quartile est la plus petite valeur telle qu’au moins 25 % des valeurs de la série sont inférieures ou égales à $Q_1$.
- Le troisième quartile est la plus petite valeur telle qu’au moins 75 % des valeurs de la série sont inférieures ou égales à $Q_3$.
- Le nombre $Q_3-Q_1$ est appelé écart interquartile.
- Le nombre $Max-Min$ est appelé étendue.
Voyons comment déterminer les quartiles d’une série statistique de 50 valeurs :
- $N=50\Leftrightarrow\dfrac14N=12,5$
Le plus petit entier supérieur à 12,5 est 13.
Donc $Q_1$ est la $13^\text{e}$ valeur.
- $N=50\Leftrightarrow\dfrac34N=37,5$
Le plus petit entier supérieur à 37,5 est 38.
Donc $Q_3$ est la $38^\text{e}$ valeur.
Diagramme en boîte
Diagramme en boîte
Soit les nombres $Q_1,\ Med\text{ et }Q_3$ ainsi que les valeurs extrêmes de la série, notées $Min\text{ et }Max$ ; ils donnent un résumé d’une série statistique et une représentation graphique par un diagramme en boîte.
L’épaisseur des rectangles tracés n’a pas de signification.
Caractéristiques de dispersion
Caractéristiques de dispersion
Étendue, écart et intervalle interquartile
Étendue, écart et intervalle interquartile
Étendue :
L’étendue d’une série statistique est la différence entre sa plus grande et sa plus petite valeur.
Écart interquartile :
Le nombre $Q_3-Q_1$ est appelé écart interquartile.
Intervalle interquartile :
L’intervalle interquartile est $[Q1\ ;\ Q3]$
Valeur $x_i$ |
-24 |
22 |
23 |
26 |
30 |
33 |
35 |
54 |
57 |
65 |
100 |
Effectifs $n_i$ |
1 |
2 |
3 |
1 |
2 |
3 |
1 |
2 |
2 |
1 |
1 |
Cette série statistique a pour étendue : $100-(-24)=124$
$\dfrac{N}{4}=\dfrac{19}4=4,75$ donc $Q_1$est la cinquième valeur. $Q_1=23$
$\dfrac{3N}{4}=\dfrac{3x19}4=14,25$ donc $Q_3$ est la quinzième valeur. $Q_3=54$
L’intervalle interquartile est $[23 \ ; \ 54]$ et l’écart interquartile est : $54-23=31$
Variance et écart-type
Variance et écart-type
Variance :
La variance d’une série statistique, dont les valeurs du caractère sont $x_1,\ x_2,\ …,\ x_k$, les effectifs correspondants $n_1,\ n_2,\ …,\ n_k$ et la moyenne $\bar x$, est égale à :
$\begin{aligned} V&=\dfrac1N\Bigg[\displaystyle{\sum_{i=1}^kn_i(x_i-\bar x)^2}\Bigg] \\ V&=\dfrac1N\Bigg[\displaystyle{\sum_{i=1}^k{n_ix_i}^2}\Bigg]-{\bar x}^2 \end{aligned}$
Écart-type :
L’écart-type d’une série statistique, noté $σ$, est égal à la racine carrée de la variance $\sigma =\sqrt V$
En reprenant la série de notes précédente $V=\dfrac1{15}\times (3^2\times 2+5^2\times 1+…+9^2\times 2)-6,6^2≈3,3$ et $σ=\sqrt V\approx 1,8$.
On pourra remarquer que lorsque l’on compare deux séries, celle qui a l’écart-type le plus grand est celle dont les valeurs sont les plus dispersées autour de la moyenne.