Médaille
N°1 pour apprendre & réviser du collège au lycée.
Statistique descriptive

Déjà plus de

1 million

d'inscrits !

Introduction :

La statistique est un ensemble de méthodes qui permettent le rassemblement, l’organisation et l’interprétation de données obtenues par l’observation d’activités de la vie courante ou en milieu professionnel.
Dans ce cours, nous allons voir comment organiser ces données et les interpréter à l’aide de paramètres statistiques centraux, tels que la médiane et la moyenne, ou de paramètres statistiques de dispersion, comme l’intervalle interquartile et l’écart type.

La médiane

On considère un ensemble de NN valeurs d’une série statistique rangées dans l’ordre croissant.

bannière definition

Définition

Médiane :

La médiane d’une série statistique de NN valeurs ordonnées est la valeur Med\text{Med} qui sépare cette série en deux groupes de même effectif.

bannière attention

Attention

Deux cas sont possibles : soit NN est pair, soit NN est impair.

  • Dans le cas où NN est impair, Med\text{Med} est la valeur qui se situe au milieu des NN valeurs ordonnées, Med\text{Med} est donc la valeur centrale.
  • Dans le cas où NN est pair, Med\text{Med} est égal à la moyenne des deux valeurs centrales.
bannière à retenir

À retenir

La médiane Med\text{Med} d’une série statistique est telle que :

  • au moins 50 %50\ \% des valeurs de la série sont inférieures ou égales à Med\text{Med} ;
  • au moins 50 %50\ \% des valeurs de la série sont supérieures ou égales à Med\text{Med}.
bannière exemple

Exemple

Considérons la série composée de 99 valeurs, NN est impair :

Valeur centrale\red {\underbrace {\small \text{Valeur centrale}}} 22354 valeurs en dessous567884 valeurs au-dessus\small \underbrace{2 - 2 - 3 - 5}{\tiny \text {4 valeurs en dessous}} - \red 5 - \underbrace{6 - 7 - 8 - 8}{\tiny \text {4 valeurs au-dessus}}

La médiane est la valeur centrale, donc Med=5\text{Med}=5.

Considérons la série composée de 1212 valeurs, NN est pair :

Valeurs centrales\red {\underbrace {\small \text{Valeurs centrales}}} 2235566 valeurs78899106 valeurs\small \underbrace{2 - 2 - 3 - 5 - 5 - \red 6}{\tiny \text {6 valeurs}} - \underbrace{\red 7 - 8 - 8 - 9 - 9 - 10}{\tiny \text {6 valeurs}}

La médiane est la valeur moyenne des deux valeurs centrales 66 et 77 donc Med=6+72=6,5\text{Med}=\dfrac{6+7}{2}=6,5.

Les quartiles

On considère un ensemble de NN valeurs d’une série statistique rangées dans l’ordre croissant comportant une valeur minimale (min\text{min}) et une valeur maximale (max\text{max}). Pour une série statistique donnée, il existe trois quartiles : Q1\text{Q}1, Q2\text{Q}2 et Q3\text{Q}3.

bannière definition

Définition

Quartile :

En statistique descriptive, le terme « quartile » désigne chacune des trois valeurs qui divisent la série de données en quatre parts égales.

bannière definition

Définition

Premier quartile (Q1\text{Q}1) :

On appelle premier quartile la plus petite valeur d’une série statistique, notée Q1\text{Q}1, telle qu’au moins 25 %25\ \% des valeurs de la série soient inférieures ou égales à Q1\text{Q}1.

bannière definition

Définition

Deuxième quartile (Q2\text{Q}2) :

Le deuxième quartile d’une série statistique est égal à la médiane de cette série.

bannière definition

Définition

Troisième quartile (Q3\text{Q}3) :

On appelle troisième quartile la plus petite valeur de la série statistique, notée Q3\text{Q}3, telle qu’au moins 75 %75\ \% des valeurs de la série soient inférieures ou égales à Q3\text{Q}3.

Mathématiques seconde réforme information chiffrée

bannière exemple

Exemple

Reprenons la série statistique vue précédemment.

La position ou le rang du premier quartile Q1\text{Q}1 de la série à 1212 valeurs est le plus petit entier supérieur ou égal à 124=3\dfrac{12}{4}=3, soit la troisième valeur de la série.

21re22e3Q13e5567889910\small \underbrace{2}{1^{\text{re}}} - \small \underbrace{2}{2^{\text{e}}} - \small \underbrace{\overbrace{3}^{\normalsize{\text{Q}1}}}_{3^{\text{e}}} - 5 - 5 - 6 - 7 - 8 - 8 - 9 - 9 - 10

  • La valeur correspondant à la position 33 est 33, donc Q1=3\text{Q}1 = 3.

Le deuxième quartile Q2\text{Q}2 est égal à la médiane de la série.

21re22e3Q13e556Q27889910\small \underbrace{2}{1^{\text{re}}} - \small \underbrace{2}{2^{\text{e}}} - \small \underbrace{\overbrace{3}^{\normalsize{\text{Q}1}}}_{3^{\text{e}}} - 5 - 5 - 6 \overbrace{-}^{\normalsize{\text{Q}2}} 7 - 8 - 8 - 9 - 9 - 10

  • Q2=Med=6+72=6,5\text{Q}2=\text{Med}=\dfrac{6+7}{2}=6,5, donc Q2=6,5\text{Q}2 = 6,5.

La position ou le rang du troisième quartile Q3\text{Q}3 de la série à 1212 valeurs est le plus petit entier supérieur ou égal à 34×12=9\dfrac{3}{4}\times 12=9, soit la neuvième valeur de la série.

21re22e3Q13e54e55e6Q26e77e88e8Q39e9910\small \underbrace{2}{1^{\text{re}}} - \small \underbrace{2}{2^{\text{e}}} - \small \underbrace{\overbrace{3}^{\normalsize{\text{Q}1}}}{3^{\text{e}}} - \small \underbrace{5}{4^{\text{e}}} - \small \underbrace{5}{5^{\text{e}}} - \small \underbrace{{\overbrace{6}^{\normalsize{\text{Q}2}}}}{6^{\text{e}}} - \small \underbrace{7}{7^{\text{e}}} - \small \underbrace{8}{8^{\text{e}}} - \small \underbrace{{\overbrace{8}^{\normalsize{\text{Q}3}}}}_{9^{\text{e}}} - 9 - 9 - 10

  • La valeur se trouvant à la neuvième position dans la série est 88, donc Q3=8\text{Q}3 = 8.
bannière exemple

Exemple

Considérons maintenant la série statistique ci-dessous comportant N=23N = 23 valeurs. Ce sont les notes obtenues par des élèves de mathématiques en classe de seconde.

Notes 00 11 22 33 44 55
Effectifs 11 55 66 55 22 44

La position ou le rang du premier quartile Q1\text{Q}1 de la série à 2323 valeurs est le plus petit entier supérieur ou égal à 234=5,75\dfrac{23}{4}=5,75, soit le sixième élève.

  • La note de ce sixième élève est égale à 11, donc Q1=1\text{Q}1 = 1.

Le deuxième quartile Q2\text{Q}2, ou la médiane, est la note du douzième élève (1212 étant la valeur centrale de la série).

  • La note de ce douzième élève est 22, donc Med=Q2=2\text{Med} = \text{Q}2=2.

La position ou le rang du troisième quartile Q3\text{Q}3 de la série à 2323 valeurs est le plus petit entier supérieur ou égal à 34×23=17,25\dfrac{3}{4}\times 23=17,25, soit le dix-huitième élève.

  • La note de ce dix-huitième élève est égale à 44, donc Q3=4\text{Q}3 = 4.
bannière definition

Définition

Écart interquartile :

On nomme écart interquartile la différence entre Q3\text{Q}3 et Q1\text{Q}1.

Eˊcart interquartile=Q3Q1\text{Écart interquartile} = \text{Q}3-\text{Q}1

bannière propriete

Propriété

L’intervalle interquartile est [Q1 ; Q3][\text{Q}1\ ;\ \text{Q}3].
Au moins 50 %50\ \% des valeurs de la série statistique sont comprises dans [Q1 ;Q3][\text{Q}1\ ; \text{Q}3].

La moyenne pondérée

bannière attention

Attention

Il ne faut pas confondre médiane et moyenne !
Pour saisir la différence entre ces deux paramètres statistiques centraux, il faut penser à un ensemble de valeurs rangées dans l’ordre croissant :

  • la médiane correspond à une de ces valeurs de telle sorte qu’il y en a autant au-dessus qu’en dessous,
  • et la moyenne est le nombre qui, multiplié par l’effectif total, est égal à la somme de toutes les valeurs.

Il existe plusieurs types de moyenne. Dans ce qui suit, nous allons définir la moyenne pondérée.

bannière definition

Définition

Moyenne pondérée :

La moyenne pondérée est la moyenne d'un certain nombre de valeurs affectées de coefficients.

On considère une série statistique d’effectif total NN tel que N=n1+n2+n3npN = n1+n2+n3…np et donnée par le tableau suivant.

Valeurs x1x1 x2x2 x3x3 xpxp
Effectifs n1n1 n2n2 n3n3 npnp

La moyenne pondérée de la série statistique donnée dans le tableau ci-dessus est :

xˉ=x1×n1+x2×n2+x3×n3++xp×npN\bar{x}=\dfrac{x1 \times n1 + x2 \times n2 + x3 \times n3 +…+xp \times np}{N}

bannière exemple

Exemple

Considérons le nombre d’heures passées par jour par un adolescent sur les réseaux sociaux pendant un mois.

Heures par jour 11 22 33 44 55 66 77
Nombre de jours 1010 55 66 44 33 11 11

On calcule la moyenne pondérée :

xˉ=1×10+2×5+3×6+4×4+5×3+6×1+7×130=82302,7\begin{aligned} \bar{x}&=\dfrac{1\times 10+2\times 5+3\times 6+4\times 4+5\times 3+6\times 1+7\times 1}{30} \ &=\dfrac{82}{30} \ &\approx2,7 \end{aligned}

Le nombre moyen d’heures passées par jour par cet adolescent sur les réseaux sociaux est donc d’environ 2,72,7 heures.

bannière propriete

Propriété

Linéarité de la moyenne :

  • Si on multiplie par le même nombre toutes les valeurs d’une série statistique, la nouvelle moyenne est le produit de l’ancienne moyenne par ce nombre.
  • Si on ajoute le même nombre à toutes les valeurs d’une série statistique, la nouvelle moyenne est la somme de l’ancienne moyenne et de ce nombre.
  • Si on retranche le même nombre à toutes les valeurs d’une série statistique, la nouvelle moyenne est la différence entre l’ancienne moyenne et ce nombre.
bannière exemple

Exemple

Un professeur de mathématiques a noté sur 1010 ses élèves lors d’un contrôle sur les statistiques.
La moyenne de la classe est de 5,55,5 sur 1010. Le professeur veut reporter cette note sur 2020.

Cela revient à calculer la moyenne de la classe où chaque élève sera noté sur 2020. Pour cela, il suffit de multiplier chaque note par 22 et de calculer la nouvelle moyenne.
D’après la première propriété ci-dessus, il suffit de prendre l’ancienne moyenne 5,55,5 et de la multiplier par 22.

  • La nouvelle moyenne de la classe est alors de 5,5×2=115,5\times 2 = 11 sur 2020.

Un autre professeur a noté ses élèves lors d’un contrôle sur les statistiques.
La moyenne de la classe est de 1212 sur 2020, mais le professeur a oublié 33 points dans la note de chaque élève.

Il lui faut alors ajouter 33 points à la note de chaque élève puis calculer la nouvelle moyenne.
Or, d’après la deuxième propriété ci-dessus, il lui suffit d’ajouter 33 points à l’ancienne moyenne pour obtenir la nouvelle moyenne.

  • La moyenne de la classe passe de 1212 à 12+3=1512+3=15 sur 2020.

L’écart type

bannière definition

Définition

Écart type :

L’écart type d’une série statistique, noté σ\sigma, est égal à la racine carrée de la moyenne des carrés des écarts de valeurs à la moyenne de la série statistique.

Plus simplement :

Valeurs x1x1 x2x2 x3x3 xpxp
Effectifs n1n1 n2n2 n3n3 npnp

Avec n1+n2+n3+np=Nn1+n2+n3+…np=N, l’écart type est égal à :

σ=n1(x1xˉ)2+n2(x2xˉ)2++np(xpxˉ)2N\sigma = \sqrt{\dfrac{n1(x1-\bar{x})^2+n2(x2-\bar{x})^2+…+np(xp-\bar{x})^2}{N}}

bannière propriete

Propriété

L’écart type est un nombre positif. Plus ce nombre est grand, plus les valeurs sont dispersées autour de la moyenne.

bannière exemple

Exemple

Considérons les résultats obtenus lors d’une évaluation par deux classes A et B d’élèves de seconde.

Classe A :

Notes 00 11 22 33 44 55
Effectifs 00 00 55 66 55 00

Classe B :

Notes 00 11 22 33 44 55
Effectifs 00 22 33 66 33 22

Les deux classes ont obtenu la même moyenne : xˉ=3\bar{x}=3.
Calculons les écarts types pour chaque série.

  • Pour la classe A :

σA=0(03)2+0(13)2+5(23)2+6(33)2+5(43)2+0(53)216=10160,79\begin{aligned} \sigma_A&=\sqrt{\dfrac{0(0-3)^2+0(1-3)^2+5(2-3)^2+6(3-3)^2+5(4-3)^2+0(5-3)^2}{16}}\ &=\sqrt{\dfrac{10}{16}} \ &\approx0,79 \end{aligned}

  • Pour la classe B :

σB=0(03)2+2(13)2+3(23)2+6(33)2+3(43)2+2(53)216=22161,17\begin{aligned} \sigma_B&=\sqrt{\dfrac{0(0-3)^2+2(1-3)^2+3(2-3)^2+6(3-3)^2+3(4-3)^2+2(5-3)^2}{16}} \ &=\sqrt{\dfrac{22}{16}} \ &\approx 1,17 \end{aligned}

  • Même si les deux classes ont obtenu la même moyenne à ce contrôle, on remarque que, pour la classe B, les notes sont plus dispersées autour de la moyenne que pour la classe A, car σB\sigmaB est supérieur à σA\sigmaA.

Conclusion :

Nous avons vu dans ce cours que les indicateurs statistiques que sont la moyenne ou la médiane d’une série statistique composée de plusieurs valeurs indiquent autour de quel nombre se situent ces valeurs. En revanche, les indicateurs tels que l’écart interquartile et l’écart type indiquent si ces valeurs sont plus ou moins dispersées.
Avec tous ces indicateurs, vous pouvez dorénavant comparer plusieurs séries statistiques.