Intervalle de fluctuation, prise de décision et estimation

Introduction :

L’échantillonnage est l’étude d’une partie contenue dans un tout, une branche des statistiques. Ce cours introduira de nouvelles définitions, propriétés, théorèmes et exemples d’applications.

Intervalle de fluctuation asymptotique

bannière propriete

Propriété

Soit $X_n$ une variable aléatoire suivant une loi binomiale $B(n,p)$, $\alpha$ un réel tel que $0<\alpha < 1$ et $Y$ une variable aléatoire suivant la loi normale centrée réduite $N(0,1)$.

On appelle $u_{\alpha}$ l’unique réel tel que : $P(-u_{\alpha} \leq Y \leq u_{\alpha}) = 1 - \alpha$

On appelle $I_n$ l’intervalle : $I_n = \left[p-u_{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}; p+u_{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right]$

Alors :

$\lim\limits_{n \rightarrow +\infty} p \left( \dfrac{X_n}{n} \in I_n \right) = 1 - \alpha$

bannière definition

Définition

Intervalle de fluctuation :

L’intervalle $I_n = \left[p-u_{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}; p+u_{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right]$ contient la fréquence $F_n = \dfrac{X_n}{n}$ avec une probabilité qui se rapproche de $1 - \alpha$ lorsque $n$ augmente.

On dit que c’est un intervalle de fluctuation asymptotique de $F_n$ au seuil de $1 - \alpha$.

Cette approximation est valable lorsque $n \geq 30$, $np \geq 5$ et $n(1-p) \geq 5$.

bannière exemple

Exemple

Le pourcentage de personnes obèses en France est de 12,4 %. On cherche à déterminer un intervalle de fluctuation asymptotique de la fréquence des personnes obèses dans une entreprise de $1400$ salariés :

  • au seuil de 80 % tout d’abord ;
  • au seuil de 99 % ensuite.

On arrondira les bornes de l’intervalle à $10^{-3}$ près.

  • Vérification des conditions :

$n = 1400 \geq 30$

$np = 1400 \times 0,124= 173,6 \geq 5$

$n(1-p) = 1400 \times(1-0,124)=1226,4 \geq 5$

  • Recherche de l’intervalle de fluctuation au seuil de 80 % :

$1-\alpha = 0,80$ donc $\alpha = 0,20$

Il faut donc déterminer $u_{0,20}$ tel que $P(-u_{0,20} \leq Y \leq u_{0,20}) = 0,80$ où $Y$ suit la loi normale centrée réduite.

Or, on sait que : $P(-u_{0,20} \leq Y \leq u_{0,20}) = 2 P(Y\leq u_{0,20}) - 1$.

On a donc : $2P(Y \leq u_{0,20}) -1=0,80 \,\, \Leftrightarrow \,\, P(Y \leq u_{0,20})=0,90$.

Avec la calculatrice :

  • TI : 2de $\rightarrow$ distrib $\rightarrow$ FracNormale(0,90)
  • CASIO : OPTN $\rightarrow$ STAT $\rightarrow$ DIST $\rightarrow$ NORM $\rightarrow$ InvN(0,90)
  • On obtient $u_{0,20} \approx 1,28$.

Finalement, on utilise la formule suivante : $\small {\left[p-u_{0,20}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+u_{0,20}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right]}$

$\small = \left[0,124-1,28\dfrac{\sqrt{0,124(1-0,124)}}{\sqrt{1400}};0,124+1,28\dfrac{\sqrt{0,124(1-0,124)}}{\sqrt{1400}} \right]$

$= \left[ 0,112\ ; 0,136 \right]$, en arrondissant toujours la borne inférieure par défaut et la borne supérieure par excès.

Cela veut dire que la fréquence des gens obèses dans l’entreprise est comprise entre 11,2 % et 13,6 %, avec un risque de 20 % de se tromper.

  • Recherche de l’intervalle de fluctuation au seuil de 99 % :

$1-\alpha = 0,99$ donc $\alpha = 0,01$.

Il faut donc déterminer $u_{0,01}$ tel que $P(-u_{0,01} \leq Y \leq u_{0,01}) = 0,80$ où $Y$ suit la loi normale centrée réduite.

En utilisant la même méthode, on obtient $u_{0,01} \approx 2,58$

Finalement, on utilise la formule suivante : $\small \left[p-u_{0,01}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+u_{0,01}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right]$

$\small = \left[0,124-2,58\dfrac{\sqrt{0,124(1-0,124)}}{\sqrt{1400}};0,124+2,58\dfrac{\sqrt{0,124(1-0,124)}}{\sqrt{1400}} \right]$

$= \left[ 0,101\ ; 0,147 \right]$, en arrondissant toujours la borne inférieure par défaut et la borne supérieure par excès.

Cela veut dire que la fréquence des gens obèses dans l’entreprise est comprise entre 10,1 % et 14,7 %, avec un risque de 1 % de se tromper.

bannière propriete

Propriété

L’intervalle de fluctuation asymptotique au seuil de 95 % pour une variable aléatoire $X_n$ suivant une loi binomiale $B(n,p)$ est l’intervalle : $I_n = \left[p-1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right]$.

bannière astuce

Astuce

Pour ce seuil de 95 %, inutile de montrer que $u_{0,05} \approx 1,96$, il est possible de s’en servir directement.

bannière à retenir

À retenir

L’intervalle de fluctuation au seuil de 95 % est un intervalle qui contient au moins 95 % des fréquences observées dans les échantillons de taille $n$.

  • Cela signifie qu’il y a un risque de 5 % pour cette fréquence de ne pas se trouver dans cet intervalle.

Prise de décision à partir d’un échantillon

bannière propriete

Propriété

On considère une population dans laquelle on suppose que la proportion d’un caractère est égale à $p$. On observe la fréquence $f$ de ce caractère dans un échantillon de taille $n$.

On a donc l’hypothèse : « la proportion de ce caractère dans la population est $p$ ».

Si $I$ est l’intervalle de fluctuation de la fréquence au seuil de 95 % dans les échantillons de taille $n$, alors on applique la règle de décision suivante :

  • si $f \in I$, on considère que l’hypothèse selon laquelle la proportion est $p$ dans la population n’est pas remise en question, et on l’accepte, avec un risque de 5 % de se tromper,
  • si $f \notin I$, on rejette l’hypothèse selon laquelle cette proportion est $p$.
bannière exemple

Exemple

Selon la théorie de Mendel, certaines cosses de petits pois devraient fournir des petits pois jaunes et verts dans les proportions respectives de 75 % et 25 %. On souhaite tester l’hypothèse selon laquelle la proportion des pois jaunes est $p=0,75$ en mettant en place une expérience sur 224 petits pois considérés comme un échantillon aléatoire. L’expérience a permis d’obtenir 176 pois jaunes et 48 pois verts.

  • Vérification des conditions :
  • $n = 224 \geq 30$
  • $np = 224 \times 0,75= 168 \geq 5$
  • $n(1-p) = 224 \times(1-0,75)=56 \geq 5$
  • Recherche de l’intervalle de fluctuation au seuil de 95 % :

$\small \begin{aligned}I &= \left[p-1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right] \\ &= \left[0,75-1.96\dfrac{\sqrt{0,75(1-0,75)}}{\sqrt{224}};0,75+1,96\dfrac{\sqrt{0,75(1-0,75)}}{\sqrt{224}} \right] \\&= \left[ 0,693 \, ; 0,807 \right]\end{aligned}$

  • Calcul de la fréquence d’apparition des pois jaunes dans l’échantillon :

$f = \dfrac{176}{224} \approx 0,786$

  • Application de la règle de décision :

$0,786 \in \left[0,693\ ; 0,807 \right]$, on accepte donc l’hypothèse avec un risque de 5 % de se tromper.

Estimation

Intervalle de confiance

bannière propriete

Propriété

$X_n$est une variable aléatoire qui suit la loi binomiale $B(n,p)$ et $F_n = \dfrac{X_n}{n}.$

Pour une valeur de $p$ fixée dans $\left[0\ ;1 \right]$, l’intervalle aléatoire $\left[F_n - \dfrac{1}{\sqrt{n}}\ ;F_n + \dfrac{1}{\sqrt{n}} \right]$ contient, pour $n$ assez grand, la proportion $p$ avec une probabilité supérieure ou égale à $0,95$.

bannière definition

Définition

Intervalle de confiance :

Soit $p$ la proportion inconnue d’un caractère dans une population.

On réalise l’expérience aléatoire de $n$ tirages au hasard et on appelle $f$ la fréquence observée d’apparition du caractère.

L’intervalle $\left[f - \dfrac{1}{\sqrt{n}}\ ;f + \dfrac{1}{\sqrt{n}} \right]$ est appelé intervalle de confiance de la proportion inconnue $p$ au niveau de confiance $0,95$.

bannière exemple

Exemple

On dispose d’une urne contenant un très grand nombre de boules rouges et bleues. On ignore quelle est la proportion $p$ de boules rouges dans l’urne et rien ne permet de faire une hypothèse sur la valeur de $p$.

On procède donc à une estimation de $p$ en réalisant un tirage de $100$ boules. Lors de ce tirage, on obtient $59$ boules rouges et $41$ bleues.

  • Calcul de la fréquence d’apparition du rouge :

$f = \dfrac{59}{100} = 0,59$.

  • Recherche de l’intervalle de confiance :

$\begin{aligned} I &= \left[f - \dfrac{1}{\sqrt{n}};f + \dfrac{1}{\sqrt{n}} \right] \\ &= \left[0,59 - \dfrac{1}{\sqrt{100}};0,59 + \dfrac{1}{\sqrt{100}} \right] \\ &= \left[ 0,49\ ;0,69 \right]\end{aligned}$

$ \left[ 0,49\ ;0,69 \right]$ est donc un intervalle de confiance à $0,95$ de la proportion de boules rouges dans l’urne.

  • Ceci signifie qu’il y a 95 % de chances pour que la proportion de boules rouges dans l’urne appartienne à cet intervalle.

Précision d’une estimation et taille de l’échantillon

bannière theoreme

Théorème

Un intervalle de confiance au niveau 95 % est d’amplitude $\dfrac{2}{\sqrt{n}}$ donc, plus la taille de l’échantillon est grande, plus l’intervalle de confiance obtenu est précis.

Si l’on souhaite situer $p$ dans un intervalle de longueur donnée $a$, alors on doit avoir $\dfrac{2}{\sqrt{n}} \leq a$ ce qui équivaut à $n \geq \dfrac{4}{a^2}$.

bannière exemple

Exemple

À l’occasion d’une élection, on réalise un sondage sur un échantillon de $n$ personnes afin de connaître le pourcentage d’électeurs qui souhaitent voter pour un candidat donné. On suppose la population suffisamment importante pour que ce sondage soit assimilé à un tirage avec remise.

Le but est de trouver la taille minimale de l’échantillon afin que l’intervalle de confiance de cette proportion donne celle-ci à 1 % près avec une probabilité au moins égale à 0,95 %.

On sait que l’amplitude d’un intervalle de confiance au niveau 95 % est $\dfrac{2}{\sqrt{n}}$ et pour avoir une précision à 1 % près, soit à $0,01$ près, on doit avoir un intervalle de confiance d’amplitude $0,02$.

On cherche donc $n$ tel que :

$\begin{aligned}&\dfrac{2}{\sqrt{n}} \leq 0,02 \\ &\Leftrightarrow \sqrt{n} \geq\dfrac{2}{0,02} \\ &\Leftrightarrow \sqrt{n} \geq 100\\ &\Leftrightarrow n \geq 10 \,000\end{aligned}$

  • On doit donc interroger au moins $10 000$ personnes.
bannière à retenir

À retenir

Un intervalle centré en $p$ fournit $p$ à la précision $x$ si son amplitude est $2x$.

bannière astuce

Astuce

Bien vérifier si l’énoncé donne la précision avec laquelle on souhaite obtenir $p$ ou bien l’amplitude (c’est-à-dire la taille) de l’intervalle.