Médaille
N°1 pour apprendre & réviser du collège au lycée.
Échantillonnage

Déjà plus de

1 million

d'inscrits !

Avant de commencer, regarde la vidéo

Introduction :

Lorsqu’on désire travailler sur une population de très grand effectif, il est difficile d’en déterminer ses propriétés. On utilise alors un échantillon de cette population. Ainsi, cela réduit le volume de données à étudier. Dans ce chapitre, nous allons déterminer les caractéristiques d’un échantillon en connaissant les caractéristiques d’une population. Nous allons également essayer, à partir des caractéristiques d’un échantillon, de déduire les caractéristiques d’une population comme dans le cadre d’un sondage.

Intervalle de fluctuation

Dans cette partie, on considère une population comportant un grand nombre d’individus dont on connaît la proportion pp d’un caractère.

bannière definition

Définition

Échantillon :

Un échantillon de taille nn est une sélection de nn individus choisis aléatoirement dans une population.

Alt texte

bannière exemple

Exemple

Une entreprise confectionne des pneumatiques pour des véhicules. La production journalière s’élève à 100000100\,000 unités. Il n’est pas possible de vérifier si tous les pneumatiques sont conformes au cahier des charges, alors on prélève au hasard 500500 pneumatiques chaque jour et on effectue des tests.

  • On a donc prélevé un échantillon de taille n=500n = 500 sur une population d’effectif 100000100\,000.

Dans une population, les individus ayant un caractère donné représentent une proportion pp. Pour chaque échantillon extrait de la population, la fréquence d’apparition ff du caractère peut varier. 

bannière definition

Définition

Intervalle de fluctuation :

Quand on prélève un échantillon de taille nn (avec n25n\geq 25) dans une population qui contient une proportion pp (avec 0,2p0,80,2\leq p\leq 0,8) du caractère étudié, alors la fréquence ff d’un échantillon aléatoire de taille nn appartient à l’intervalle [p1n ; p+1n]\bigg[p-\sqrt{\dfrac{1}{n}}\ ;\ p+\sqrt{\dfrac{1}{n}}\bigg] avec une probabilité de 0,950,95.

  • Cet intervalle s’appelle intervalle de fluctuation à 95 %95\ \%.
bannière exemple

Exemple

  • Exemple 1

L’entreprise confectionne 100000100\,000 pneumatiques journaliers et on sait que 20 %20\ \% des pneumatiques sont défectueux, soit une proportion p=0,2p = 0,2. Sachant que l’on prélève au hasard 500500 pneumatiques chaque jour, on peut déterminer l’intervalle de fluctuation, c’est-à-dire l’intervalle où la majorité des fréquences des pneumatiques défectueux des échantillons se situent.
Cet intervalle est :

[0,21500 ; 0,2+1500][0,155 ; 0,245]\bigg[0,2-\sqrt{\dfrac{1}{500}}\ ;\ 0,2+\sqrt{\dfrac{1}{500}}\bigg]\approx [0,155\ ;\ 0,245]

Ainsi, la proportion de pneus défectueux dans chaque échantillon se trouve majoritairement comprise dans cet intervalle, soit entre 0,1550,155 et 0,2450,245.

  • Autrement dit, la majorité des échantillons comportent entre 15,5%15,5\% et 24,5 %24,5\ \% de pneus défectueux.
  • Exemple 2

Considérons un bassin contenant 50 %50\ \% de saumons femelles et 50 %50\ \% de saumons mâles. On prélève un échantillon de taille n=100n = 100, donc l’intervalle de fluctuation est :

[0,51100 ; 0,5+1100]=[0,4 ; 0,6]\bigg[0,5-\sqrt{\dfrac{1}{100}}\ ;\ 0,5+\sqrt{\dfrac{1}{100}}\bigg]= [0,4\ ;\ 0,6]

  • La majorité des échantillons contiennent entre 40 %40\ \% et 60 %60\ \% de saumons femelles (ou mâles).
bannière propriete

Propriété

Plus la taille de l’échantillon est grande, plus l’étendue de l’intervalle de fluctuation diminue.

Intervalle de confiance

Dans cette partie on considère une population comportant un grand nombre d’individus dont on ne connaît pas la proportion pp d’un caractère.

bannière definition

Définition

Intervalle de confiance :

Quand un échantillon de taille nn contient une fréquence ff du caractère étudié (avec n30n\geq 30, n×f5n\times f\geq 5 et n×(1f)5n\times(1- f)\geq 5), alors la proportion pp du caractère dans la population appartient à l’intervalle [f1n ; f+1n]\left[f-\sqrt{\dfrac{1}{n}}\ ;\ f+\sqrt{\dfrac{1}{n}}\right] avec une probabilité de 0,950,95.

  • Cet intervalle s’appelle intervalle de confiance à 95 %95\ \%.
bannière exemple

Exemple

En prévision des élections régionales, 15001\,500 personnes ont été interrogées et 280280 ont déclaré avoir l’intention de voter pour monsieur AA.

On a donc : n=1500n=1\,500 et f=2801500f=\dfrac{280}{1\,500}.
L’intervalle de confiance est donc :

[280150011500 ; 2801500+11500]=[0,161 ; 0,212]\Big[\dfrac{280}{1500}-\sqrt{\dfrac{1}{1500}}\ ;\ \dfrac{280}{1500}+\sqrt{\dfrac{1}{1500}}\Big]= [0,161\ ;\ 0,212]

On peut donc dire que, sur l’ensemble de la population et pour la majorité des échantillons étudiés, la proportion de gens votant pour monsieur AA dans la population appartient à l’intervalle [0,161 ; 0,212] [0,161\ ;\ 0,212].

  • Autrement dit, pour la plupart des échantillons étudiés, il y entre 16,1 %16,1\ \% et 21,2 %21,2\ \% des personnes qui vont voter pour monsieur AA.
bannière à retenir

À retenir

  • On utilise un intervalle de fluctuation lorsque la proportion pp dans la population est connue et la fréquence ff observée dans un échantillon appartient dans la majorité des cas à l’intervalle de fluctuation considéré.
  • On utilise un intervalle de confiance lorsque l’on veut estimer une proportion inconnue pp dans une population à partir de la fréquence ff observée dans un échantillon, comme par exemple dans le cadre d’un sondage.

Loi des grands nombres

bannière exemple

Exemple

On jette 100100 fois une pièce équilibrée. On note la fréquence d’apparition de chaque côté dans un tableau.

Côté Pile Face
Effectif 5656 4444
Fréquence 0,560,56 0,440,44

On regarde la fréquence d’apparition de pile : f=0,56f=0,56.
La pièce n’est pas truquée, la probabilité d’obtenir pile est égale à p=12p=\dfrac{1}{2}.
Ainsi :

fp=0,5612=0,06\begin{aligned} \vert f-p\vert &= \Big\vert 0,56-\dfrac{1}{2}\Big\vert \ &=0,06 \end{aligned}

On jette maintenant 1000010\,000 fois cette pièce. On note la fréquence d’apparition de chaque face dans un tableau.

Côté Pile Face
Effectif 49854\,985 50155\,015
Fréquence 0,49850,4985 0,50150,5015

On regarde la fréquence d’apparition de pile, elle est égale à f=0,4985f=0,4985.
La pièce n’est pas truquée, la probabilité d’obtenir pile est égale à p=12p=\dfrac{1}{2}.
Ainsi :

fp=0,498512=0,0015\begin{aligned} \vert f-p \vert &=\Big\vert 0,4985-\dfrac{1}{2} \Big\vert \ &=0,0015 \end{aligned}

  • Plus le nombre d’expériences aléatoires est grand, plus la fréquence d’apparition d’un événement semble tendre vers la probabilité de cet événement.
bannière definition

Définition

Loi des grands nombres (version simplifiée) :

Soit une expérience aléatoire répétée nn fois, qui a pour résultat une fréquence d’apparition.
Plus nn est grand, plus la fréquence d’apparition se rapproche de la probabilité de l’expérience aléatoire.

Conclusion :

L’échantillonnage fait maintenant partie intégrante du processus de sondage. À l’issue de ce cours, vous comprenez pourquoi les résultats des sondages sont d’autant plus précis que la taille de l’échantillon issu d’une population est grande. Lorsque vous lirez maintenant ce genre d’information : « Sur 956956 personnes interrogées, 58 %58\ \% comptent voter pour monsieur ou madame Y », vous pourrez estimer la fluctuation de ce pourcentage.