Cours Intervalle de fluctuation, prise de décision et estimation
Introduction :
L’échantillonnage est l’étude d’une partie contenue dans un tout, une branche des statistiques. Ce cours introduira de nouvelles définitions, propriétés, théorèmes et exemples d’applications.
Intervalle de fluctuation asymptotique
Soit $X_n$ une variable aléatoire suivant une loi binomiale $B(n,p)$, $\alpha$ un réel tel que $0<\alpha < 1$ et $Y$ une variable aléatoire suivant la loi normale centrée réduite $N(0,1)$.
On appelle $u_{\alpha}$ l’unique réel tel que : $P(-u_{\alpha} \leq Y \leq u_{\alpha}) = 1 - \alpha$
On appelle $I_n$ l’intervalle : $I_n = \left[p-u_{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}; p+u_{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right]$
Alors :
$\lim\limits_{n \rightarrow +\infty} p \left( \dfrac{X_n}{n} \in I_n \right) = 1 - \alpha$
Intervalle de fluctuation :
L’intervalle $I_n = \left[p-u_{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}; p+u_{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right]$ contient la fréquence $F_n = \dfrac{X_n}{n}$ avec une probabilité qui se rapproche de $1 - \alpha$ lorsque $n$ augmente.
On dit que c’est un intervalle de fluctuation asymptotique de $F_n$ au seuil de $1 - \alpha$.
Cette approximation est valable lorsque $n \geq 30$, $np \geq 5$ et $n(1-p) \geq 5$.
Le pourcentage de personnes obèses en France est de 12,4 %. On cherche à déterminer un intervalle de fluctuation asymptotique de la fréquence des personnes obèses dans une entreprise de $1400$ salariés :
- au seuil de 80 % tout d’abord ;
- au seuil de 99 % ensuite.
On arrondira les bornes de l’intervalle à $10^{-3}$ près.
- Vérification des conditions :
$n = 1400 \geq 30$
$np = 1400 \times 0,124= 173,6 \geq 5$
$n(1-p) = 1400 \times(1-0,124)=1226,4 \geq 5$
- Recherche de l’intervalle de fluctuation au seuil de 80 % :
$1-\alpha = 0,80$ donc $\alpha = 0,20$
Il faut donc déterminer $u_{0,20}$ tel que $P(-u_{0,20} \leq Y \leq u_{0,20}) = 0,80$ où $Y$ suit la loi normale centrée réduite.
Or, on sait que : $P(-u_{0,20} \leq Y \leq u_{0,20}) = 2 P(Y\leq u_{0,20}) - 1$.
On a donc : $2P(Y \leq u_{0,20}) -1=0,80 \,\, \Leftrightarrow \,\, P(Y \leq u_{0,20})=0,90$.
Avec la calculatrice :
- TI : $\rightarrow$ $\rightarrow$
- CASIO : $\rightarrow$ $\rightarrow$ $\rightarrow$ $\rightarrow$
- On obtient $u_{0,20} \approx 1,28$.
Finalement, on utilise la formule suivante : $\small {\left[p-u_{0,20}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+u_{0,20}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right]}$
$\small = \left[0,124-1,28\dfrac{\sqrt{0,124(1-0,124)}}{\sqrt{1400}};0,124+1,28\dfrac{\sqrt{0,124(1-0,124)}}{\sqrt{1400}} \right]$
$= \left[ 0,112\ ; 0,136 \right]$, en arrondissant toujours la borne inférieure par défaut et la borne supérieure par excès.
Cela veut dire que la fréquence des gens obèses dans l’entreprise est comprise entre 11,2 % et 13,6 %, avec un risque de 20 % de se tromper.
- Recherche de l’intervalle de fluctuation au seuil de 99 % :
$1-\alpha = 0,99$ donc $\alpha = 0,01$.
Il faut donc déterminer $u_{0,01}$ tel que $P(-u_{0,01} \leq Y \leq u_{0,01}) = 0,80$ où $Y$ suit la loi normale centrée réduite.
En utilisant la même méthode, on obtient $u_{0,01} \approx 2,58$
Finalement, on utilise la formule suivante : $\small \left[p-u_{0,01}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+u_{0,01}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right]$
$\small = \left[0,124-2,58\dfrac{\sqrt{0,124(1-0,124)}}{\sqrt{1400}};0,124+2,58\dfrac{\sqrt{0,124(1-0,124)}}{\sqrt{1400}} \right]$
$= \left[ 0,101\ ; 0,147 \right]$, en arrondissant toujours la borne inférieure par défaut et la borne supérieure par excès.
Cela veut dire que la fréquence des gens obèses dans l’entreprise est comprise entre 10,1 % et 14,7 %, avec un risque de 1 % de se tromper.
L’intervalle de fluctuation asymptotique au seuil de 95 % pour une variable aléatoire $X_n$ suivant une loi binomiale $B(n,p)$ est l’intervalle : $I_n = \left[p-1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right]$.
Pour ce seuil de 95 %, inutile de montrer que $u_{0,05} \approx 1,96$, il est possible de s’en servir directement.
L’intervalle de fluctuation au seuil de 95 % est un intervalle qui contient au moins 95 % des fréquences observées dans les échantillons de taille $n$.
- Cela signifie qu’il y a un risque de 5 % pour cette fréquence de ne pas se trouver dans cet intervalle.
Prise de décision à partir d’un échantillon
On considère une population dans laquelle on suppose que la proportion d’un caractère est égale à $p$. On observe la fréquence $f$ de ce caractère dans un échantillon de taille $n$.
On a donc l’hypothèse : « la proportion de ce caractère dans la population est $p$ ».
Si $I$ est l’intervalle de fluctuation de la fréquence au seuil de 95 % dans les échantillons de taille $n$, alors on applique la règle de décision suivante :
- si $f \in I$, on considère que l’hypothèse selon laquelle la proportion est $p$ dans la population n’est pas remise en question, et on l’accepte, avec un risque de 5 % de se tromper,
- si $f \notin I$, on rejette l’hypothèse selon laquelle cette proportion est $p$.
Selon la théorie de Mendel, certaines cosses de petits pois devraient fournir des petits pois jaunes et verts dans les proportions respectives de 75 % et 25 %. On souhaite tester l’hypothèse selon laquelle la proportion des pois jaunes est $p=0,75$ en mettant en place une expérience sur 224 petits pois considérés comme un échantillon aléatoire. L’expérience a permis d’obtenir 176 pois jaunes et 48 pois verts.
- Vérification des conditions :
- $n = 224 \geq 30$
- $np = 224 \times 0,75= 168 \geq 5$
- $n(1-p) = 224 \times(1-0,75)=56 \geq 5$
- Recherche de l’intervalle de fluctuation au seuil de 95 % :
$\small \begin{aligned}I &= \left[p-1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right] \\ &= \left[0,75-1.96\dfrac{\sqrt{0,75(1-0,75)}}{\sqrt{224}};0,75+1,96\dfrac{\sqrt{0,75(1-0,75)}}{\sqrt{224}} \right] \\&= \left[ 0,693 \, ; 0,807 \right]\end{aligned}$
- Calcul de la fréquence d’apparition des pois jaunes dans l’échantillon :
$f = \dfrac{176}{224} \approx 0,786$
- Application de la règle de décision :
$0,786 \in \left[0,693\ ; 0,807 \right]$, on accepte donc l’hypothèse avec un risque de 5 % de se tromper.
Estimation
Intervalle de confiance
$X_n$est une variable aléatoire qui suit la loi binomiale $B(n,p)$ et $F_n = \dfrac{X_n}{n}.$
Pour une valeur de $p$ fixée dans $\left[0\ ;1 \right]$, l’intervalle aléatoire $\left[F_n - \dfrac{1}{\sqrt{n}}\ ;F_n + \dfrac{1}{\sqrt{n}} \right]$ contient, pour $n$ assez grand, la proportion $p$ avec une probabilité supérieure ou égale à $0,95$.
Intervalle de confiance :
Soit $p$ la proportion inconnue d’un caractère dans une population.
On réalise l’expérience aléatoire de $n$ tirages au hasard et on appelle $f$ la fréquence observée d’apparition du caractère.
L’intervalle $\left[f - \dfrac{1}{\sqrt{n}}\ ;f + \dfrac{1}{\sqrt{n}} \right]$ est appelé intervalle de confiance de la proportion inconnue $p$ au niveau de confiance $0,95$.
On dispose d’une urne contenant un très grand nombre de boules rouges et bleues. On ignore quelle est la proportion $p$ de boules rouges dans l’urne et rien ne permet de faire une hypothèse sur la valeur de $p$.
On procède donc à une estimation de $p$ en réalisant un tirage de $100$ boules. Lors de ce tirage, on obtient $59$ boules rouges et $41$ bleues.
- Calcul de la fréquence d’apparition du rouge :
$f = \dfrac{59}{100} = 0,59$.
- Recherche de l’intervalle de confiance :
$\begin{aligned} I &= \left[f - \dfrac{1}{\sqrt{n}};f + \dfrac{1}{\sqrt{n}} \right] \\ &= \left[0,59 - \dfrac{1}{\sqrt{100}};0,59 + \dfrac{1}{\sqrt{100}} \right] \\ &= \left[ 0,49\ ;0,69 \right]\end{aligned}$
$ \left[ 0,49\ ;0,69 \right]$ est donc un intervalle de confiance à $0,95$ de la proportion de boules rouges dans l’urne.
- Ceci signifie qu’il y a 95 % de chances pour que la proportion de boules rouges dans l’urne appartienne à cet intervalle.
Précision d’une estimation et taille de l’échantillon
Un intervalle de confiance au niveau 95 % est d’amplitude $\dfrac{2}{\sqrt{n}}$ donc, plus la taille de l’échantillon est grande, plus l’intervalle de confiance obtenu est précis.
Si l’on souhaite situer $p$ dans un intervalle de longueur donnée $a$, alors on doit avoir $\dfrac{2}{\sqrt{n}} \leq a$ ce qui équivaut à $n \geq \dfrac{4}{a^2}$.
À l’occasion d’une élection, on réalise un sondage sur un échantillon de $n$ personnes afin de connaître le pourcentage d’électeurs qui souhaitent voter pour un candidat donné. On suppose la population suffisamment importante pour que ce sondage soit assimilé à un tirage avec remise.
Le but est de trouver la taille minimale de l’échantillon afin que l’intervalle de confiance de cette proportion donne celle-ci à 1 % près avec une probabilité au moins égale à 0,95 %.
On sait que l’amplitude d’un intervalle de confiance au niveau 95 % est $\dfrac{2}{\sqrt{n}}$ et pour avoir une précision à 1 % près, soit à $0,01$ près, on doit avoir un intervalle de confiance d’amplitude $0,02$.
On cherche donc $n$ tel que :
$\begin{aligned}&\dfrac{2}{\sqrt{n}} \leq 0,02 \\ &\Leftrightarrow \sqrt{n} \geq\dfrac{2}{0,02} \\ &\Leftrightarrow \sqrt{n} \geq 100\\ &\Leftrightarrow n \geq 10 \,000\end{aligned}$
- On doit donc interroger au moins $10 000$ personnes.
Un intervalle centré en $p$ fournit $p$ à la précision $x$ si son amplitude est $2x$.
Bien vérifier si l’énoncé donne la précision avec laquelle on souhaite obtenir $p$ ou bien l’amplitude (c’est-à-dire la taille) de l’intervalle.