Échantillonnage, intervalle de fluctuation, estimation et prise de décision

​Introduction :

Ce cours est lié à celui sur la loi binomiale donc tu peux, si besoin, revoir la vidéo correspondante.

Nous commencerons cette leçon sur l’échantillonnage en parlant d’intervalle de fluctuation avec la loi binomiale tout d’abord, puis nous le comparerons avec l’intervalle de fluctuation vu en classe de seconde. La deuxième partie de ce cours sera consacrée à la prise de décision.

Intervalle de fluctuation

Avec la loi binomiale

bannière definition

Définition

Échantillon :

Un échantillon de taille $n$ est obtenu en prélevant au hasard, successivement et avec remise, $n$ éléments d’une population.

bannière exemple

Exemple

  • Prélever des pièces dans une production de manière identique et indépendante, noter à chaque fois si la pièce présente un défaut ou non, et la remettre dans la production
  • Lancer plusieurs fois un dé et noter à chaque fois si la face supérieure est un $6$ ou non.
bannière definition

Définition

Intervalle de fluctuation :

Soit une population dans laquelle on suppose que la proportion d’un certain caractère est $p$ et dans laquelle on prélève au hasard et avec remise un échantillon de taille $n$.

On considère la variable aléatoire $X$ égale au nombre d’apparitions du caractère dans l’échantillon et la variable aléatoire $F=\dfrac Xn$ égale à la fréquence du caractère dans l’échantillon.

On détermine :

  • le plus petit entier $a$ tel que $p(X≤a)>0,025$
  • le plus petit entier $b$ tel que $p(X≤b)≥0,975$

L’intervalle $I_n=\left[\dfrac an ; \dfrac bn\right]$ est appelé intervalle de fluctuation de $F$ au seuil de $95\ \%$.

bannière à retenir

À retenir

Concrètement, la constitution de l’échantillon est une répétition d’expériences identiques et indépendantes. La variable aléatoire $X$ suit donc la loi binomiale $B(n\ ;\ p)$.

L’intervalle de fluctuation $I_n$ est l’intervalle pour lequel la probabilité que $F$ appartienne à $I_n$ est supérieure ou égale à $0,95$.

On peut schématiser la situation avec le graphique suivant :

Graphique

bannière exemple

Exemple

Soit $X$ une variable aléatoire qui suit la loi binomiale $B\big(20\ ;\ 0,65\big)$.

La table ci-dessous fournit les données des probabilités $p(X≤k)$, voyons comment nous en servir pour déterminer l’intervalle de fluctuation à $95\ \%:$

  • $p(X≤a)>0,025\rightarrow a=9$
  • $p(X≤b)≥0,975\rightarrow b=17$
  • $I=\left[\dfrac{9}{20}\ ;\ \dfrac{17}{20}\right]=\left[0,45\ ;\ 0,85\right]$ au seuil de $95\ \%$

L’écran d’un tableur L’écran d’un tableur

bannière astuce

Astuce

Sais-tu ce qui change quand on cherche l’intervalle de fluctuation à $90\ \%$ ?

Au lieu d’avoir moins de $2,5\ \%$ des valeurs avant $a$ et moins de $2,5\ \%$ des valeurs après $b$ (ce qui équivaut à au moins 95 % des valeurs entre $a\text{ et }b$), on aura moins de $5\ \%$ des valeurs avant $a$ et moins de $5\ \%$ des valeurs après $b$ (ce qui équivaut à $90\ \%$ des valeurs entre $a\text{ et }b$) :

  • $p(X≤a)>0,05\rightarrow a=9$
  • $p(X≤b)≥0,95\rightarrow b=16$
  • $I=\left[\dfrac{9}{20}\ ;\ \dfrac{16}{20}\right]=\big[0,45\ ;\ 0,8\big]$ au seuil de $90\ \%$

Lien avec l’intervalle de fluctuation vu en 2de

Comparons la définition de l’intervalle de fluctuation que nous venons d’étudier avec celle vue en seconde.

bannière rappel

Rappel

Formule de l’intervalle de fluctuation :

$I=\left[p-\dfrac{1}{\sqrt n}\ ;\ p+\dfrac{1}{\sqrt n}\right]$

On considère que c’est une bonne approximation de l’intervalle de fluctuation au seuil de $95\ \%$.

Le problème est que cette approximation n’est valable que pour certaines valeurs de $n\text{ et }p$ ($n≥30$ et $0,2≤p≤0,8$) alors qu’avec la loi binomiale on peut déterminer l’intervalle de fluctuation quelles que soient les valeurs de $n\text{ et }p$.

bannière exemple

Exemple

Reprenons l’exemple précédent avec $n=20$ et $p=0,65 :$

$\begin{aligned} I&=\left[p-\dfrac1{\sqrt n}\ ;\ p+\dfrac1{\sqrt n}\right]\\ &=\left[0,65-\dfrac1{\sqrt {20}}\ ;\ 0,65+\dfrac1{\sqrt {20}}\right]\\ I&=\big[0,42\ ;\ 0,88\big] \end{aligned}$

Il s’agit d’une approximation mais elle n’est pas très bonne car $n$ est inférieur à $30$, les conditions d’utilisation de la formule vue en seconde ne sont donc pas respectées. La réponse $I=\big[0,45\ ;\ 0,85\big]$, donnée grâce à la loi binomiale, est beaucoup plus précise.

Estimation, prise de décision

bannière definition

Définition

La règle de décision :

On considère une population dans laquelle on fait l’hypothèse que la proportion d’un caractère est $p$ et on souhaite tester la validité de cette hypothèse.

Pour cela, on prélève par hasard et avec remise un échantillon de taille $n$ sur lequel on observe la fréquence $f$ d’apparition de ce caractère puis on détermine l’intervalle de fluctuation (au seuil de $95\ \%$) $I_n$ correspondant :

  • Si $f∈I_n$ on accepte l’hypothèse ;
  • Si $f∉I_n$ on rejette l’hypothèse avec un risque d’erreur de $5\ \%$.

Il est normal que $f$ et $p$ n’aient pas exactement la même valeur. La question qui se pose est de savoir si cette différence est significative ou non.

L’intervalle $I_n$ contient au moins $95\ \%$ des fréquences des échantillons de taille $n$ :

Si la proportion $p$ est correcte, il y a peu de chances (moins de $5\ \%$) que la fréquence $f $ de l’échantillon soit en dehors de $I_n$ ; c’est pourquoi, si cela se produit, on rejette l’hypothèse et on considère que la différence entre $f$ et $p$ est significative.

En revanche, si la fréquence $f$ de l’échantillon est à l’intérieur de $I_n$ on n’a aucun argument pour rejeter l’hypothèse donc on l’accepte.

bannière exemple

Exemple

« La direction d’une grosse société estime que $54\ \%$ des salariés qui déjeunent sur place sont satisfaits du restaurant d’entreprise.

Afin de vérifier cette hypothèse, une enquête auprès de 50 salariés est organisée. 21 salariés déclarent que la restauration leur convient. Que penser de l’affirmation de la direction ? »

  • Repérer l’hypothèse sur la proportion.

Ici, on suppose que $54\ \%$ des salariés sont satisfaits donc $p=0,54$.

  • Repérer la taille de l’échantillon.

Ici, l’enquête est organisée auprès de 50 salariés donc $n=50$.

  • Repérer (ou calculer) la fréquence $f$.

Ici, parmi les 50 salariés interrogés, 21 déclarent être satisfaits donc $f=\dfrac{21}{50}=0,42$.

  • Déterminer l’intervalle de fluctuation $I_n$ correspondant.

Comme nous l’avons vu dans la première partie de ce cours, l’intervalle de fluctuation se détermine facilement à l’aide de la loi binomiale.

La variable aléatoire $X$ qui compte le nombre de salariés satisfaits dans un échantillon de $50$ suit la loi binomiale de paramètres $n=50$ et $p=0,54$.

Avec la calculatrice, on détermine :

  • le plus petit entier $a$ tel que $p(X≤a)>0,025$
  • le plus petit entier $b$ tel que $p(X≤b)≥0,975$
  • Calculer $p(X≤k)$avec la calculatrice :

Ti

  • 2de
  • →distrib
  • →binomFRép (ou binomCDF en fonction de la langue de la calculatrice)
  • → n, p, k

Casio

  • Menu Stat
  • → DIST (avec F5)
  • → BINM (avec F5)
  • → Bcd
  • → Dans Data, mettre Variable ;
  • pour x entrer la valeur de k ;
  • pour Numtrial entrer la valeur de n ;
  • enfin, entrer la valeur de p → EXE

Ici, on trouve :

$\small\text{et} \left\lbrace \begin{array}{rcl} p(X≤19)=0,017<0,025& &p(X≤20)=0,032>0,025 &\text{donc }a=20\\ p(X≤33)=0,969<0,975& &p(X≤34)=0,984>0,975 &\text{donc } b=34\\ \end{array} \right.$

L’intervalle de fluctuation au seuil de $95\ \%$ est donc $I_n=\left[\dfrac an ; \dfrac bn\right]=\left[\dfrac{20}{50} ; \dfrac{34}{50}\right]=\big[0,4\ ;\ 0,68\big]$.

  • Vérifier si $f$ appartient ou non à $I_n$.

$0,42\in\big[0,4\ ;\ 0,68\big]$ donc $f\in I_n$.

  • Conclure

L’affirmation de la direction ne peut donc pas être remise en question.