Médaille
N°1 pour apprendre & réviser du collège au lycée.
Intervalle de fluctuation, prise de décision et estimation

Déjà plus de

1 million

d'inscrits !

Introduction :

L’échantillonnage est l’étude d’une partie contenue dans un tout, une branche des statistiques. Ce cours introduira de nouvelles définitions, propriétés, théorèmes et exemples d’applications.

Intervalle de fluctuation asymptotique

bannière propriete

Propriété

Soit XnX_n une variable aléatoire suivant une loi binomiale B(n,p)B(n,p), α\alpha un réel tel que 0<α<10<\alpha < 1 et YY une variable aléatoire suivant la loi normale centrée réduite N(0,1)N(0,1).

On appelle uαu{\alpha} l’unique réel tel que : P(uαYuα)=1αP(-u{\alpha} \leq Y \leq u_{\alpha}) = 1 - \alpha

On appelle InIn l’intervalle : In=[puαp(1p)n;p+uαp(1p)n]In = \left[p-u{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}; p+u{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right]

Alors :

limn+p(XnnIn)=1α\lim\limits{n \rightarrow +\infty} p \left( \dfrac{Xn}{n} \in I_n \right) = 1 - \alpha

bannière definition

Définition

Intervalle de fluctuation :

L’intervalle In=[puαp(1p)n;p+uαp(1p)n]In = \left[p-u{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}; p+u{\alpha}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right] contient la fréquence Fn=XnnFn = \dfrac{X_n}{n} avec une probabilité qui se rapproche de 1α1 - \alpha lorsque nn augmente.

On dit que c’est un intervalle de fluctuation asymptotique de FnF_n au seuil de 1α1 - \alpha.

Cette approximation est valable lorsque n30n \geq 30, np5np \geq 5 et n(1p)5n(1-p) \geq 5.

bannière exemple

Exemple

Le pourcentage de personnes obèses en France est de 12,4 %. On cherche à déterminer un intervalle de fluctuation asymptotique de la fréquence des personnes obèses dans une entreprise de 14001400 salariés :

  • au seuil de 80 % tout d’abord ;
  • au seuil de 99 % ensuite.

On arrondira les bornes de l’intervalle à 10310^{-3} près.

  • Vérification des conditions :

n=140030n = 1400 \geq 30

np=1400×0,124=173,65np = 1400 \times 0,124= 173,6 \geq 5

n(1p)=1400×(10,124)=1226,45n(1-p) = 1400 \times(1-0,124)=1226,4 \geq 5

  • Recherche de l’intervalle de fluctuation au seuil de 80 % :

1α=0,801-\alpha = 0,80 donc α=0,20\alpha = 0,20

Il faut donc déterminer u0,20u{0,20} tel que P(u0,20Yu0,20)=0,80P(-u{0,20} \leq Y \leq u_{0,20}) = 0,80YY suit la loi normale centrée réduite.

Or, on sait que : P(u0,20Yu0,20)=2P(Yu0,20)1P(-u{0,20} \leq Y \leq u{0,20}) = 2 P(Y\leq u_{0,20}) - 1.

On a donc : 2P(Yu0,20)1=0,80P(Yu0,20)=0,902P(Y \leq u{0,20}) -1=0,80 \,\, \Leftrightarrow \,\, P(Y \leq u{0,20})=0,90.

Avec la calculatrice :

  • TI : 2de \rightarrow distrib \rightarrow FracNormale(0,90)
  • CASIO : OPTN \rightarrow STAT \rightarrow DIST \rightarrow NORM \rightarrow InvN(0,90)
  • On obtient u0,201,28u_{0,20} \approx 1,28.

Finalement, on utilise la formule suivante : [pu0,20p(1p)n;p+u0,20p(1p)n]\small {\left[p-u{0,20}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+u{0,20}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right]}

=[0,1241,280,124(10,124)1400;0,124+1,280,124(10,124)1400]\small = \left[0,124-1,28\dfrac{\sqrt{0,124(1-0,124)}}{\sqrt{1400}};0,124+1,28\dfrac{\sqrt{0,124(1-0,124)}}{\sqrt{1400}} \right]

=[0,112 ;0,136]= \left[ 0,112\ ; 0,136 \right], en arrondissant toujours la borne inférieure par défaut et la borne supérieure par excès.

Cela veut dire que la fréquence des gens obèses dans l’entreprise est comprise entre 11,2 % et 13,6 %, avec un risque de 20 % de se tromper.

  • Recherche de l’intervalle de fluctuation au seuil de 99 % :

1α=0,991-\alpha = 0,99 donc α=0,01\alpha = 0,01.

Il faut donc déterminer u0,01u{0,01} tel que P(u0,01Yu0,01)=0,80P(-u{0,01} \leq Y \leq u_{0,01}) = 0,80YY suit la loi normale centrée réduite.

En utilisant la même méthode, on obtient u0,012,58u_{0,01} \approx 2,58

Finalement, on utilise la formule suivante : [pu0,01p(1p)n;p+u0,01p(1p)n]\small \left[p-u{0,01}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+u{0,01}\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right]

=[0,1242,580,124(10,124)1400;0,124+2,580,124(10,124)1400]\small = \left[0,124-2,58\dfrac{\sqrt{0,124(1-0,124)}}{\sqrt{1400}};0,124+2,58\dfrac{\sqrt{0,124(1-0,124)}}{\sqrt{1400}} \right]

=[0,101 ;0,147]= \left[ 0,101\ ; 0,147 \right], en arrondissant toujours la borne inférieure par défaut et la borne supérieure par excès.

Cela veut dire que la fréquence des gens obèses dans l’entreprise est comprise entre 10,1 % et 14,7 %, avec un risque de 1 % de se tromper.

bannière propriete

Propriété

L’intervalle de fluctuation asymptotique au seuil de 95 % pour une variable aléatoire XnXn suivant une loi binomiale B(n,p)B(n,p) est l’intervalle : In=[p1,96p(1p)n;p+1,96p(1p)n]In = \left[p-1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right].

bannière astuce

Astuce

Pour ce seuil de 95 %, inutile de montrer que u0,051,96u_{0,05} \approx 1,96, il est possible de s’en servir directement.

bannière à retenir

À retenir

L’intervalle de fluctuation au seuil de 95 % est un intervalle qui contient au moins 95 % des fréquences observées dans les échantillons de taille nn.

  • Cela signifie qu’il y a un risque de 5 % pour cette fréquence de ne pas se trouver dans cet intervalle.

Prise de décision à partir d’un échantillon

bannière propriete

Propriété

On considère une population dans laquelle on suppose que la proportion d’un caractère est égale à pp. On observe la fréquence ff de ce caractère dans un échantillon de taille nn.

On a donc l’hypothèse : « la proportion de ce caractère dans la population est pp ».

Si II est l’intervalle de fluctuation de la fréquence au seuil de 95 % dans les échantillons de taille nn, alors on applique la règle de décision suivante :

  • si fIf \in I, on considère que l’hypothèse selon laquelle la proportion est pp dans la population n’est pas remise en question, et on l’accepte, avec un risque de 5 % de se tromper,
  • si fIf \notin I, on rejette l’hypothèse selon laquelle cette proportion est pp.
bannière exemple

Exemple

Selon la théorie de Mendel, certaines cosses de petits pois devraient fournir des petits pois jaunes et verts dans les proportions respectives de 75 % et 25 %. On souhaite tester l’hypothèse selon laquelle la proportion des pois jaunes est p=0,75p=0,75 en mettant en place une expérience sur 224 petits pois considérés comme un échantillon aléatoire. L’expérience a permis d’obtenir 176 pois jaunes et 48 pois verts.

  • Vérification des conditions :
  • n=22430n = 224 \geq 30
  • np=224×0,75=1685np = 224 \times 0,75= 168 \geq 5
  • n(1p)=224×(10,75)=565n(1-p) = 224 \times(1-0,75)=56 \geq 5
  • Recherche de l’intervalle de fluctuation au seuil de 95 % :

I=[p1,96p(1p)n;p+1,96p(1p)n]=[0,751.960,75(10,75)224;0,75+1,960,75(10,75)224]=[0,693;0,807]\small \begin{aligned}I &= \left[p-1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}};p+1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}} \right] \ &= \left[0,75-1.96\dfrac{\sqrt{0,75(1-0,75)}}{\sqrt{224}};0,75+1,96\dfrac{\sqrt{0,75(1-0,75)}}{\sqrt{224}} \right] \&= \left[ 0,693 \, ; 0,807 \right]\end{aligned}

  • Calcul de la fréquence d’apparition des pois jaunes dans l’échantillon :

f=1762240,786f = \dfrac{176}{224} \approx 0,786

  • Application de la règle de décision :

0,786[0,693 ;0,807]0,786 \in \left[0,693\ ; 0,807 \right], on accepte donc l’hypothèse avec un risque de 5 % de se tromper.

Estimation

Intervalle de confiance

bannière propriete

Propriété

XnXnest une variable aléatoire qui suit la loi binomiale B(n,p)B(n,p) et Fn=Xnn.Fn = \dfrac{X_n}{n}.

Pour une valeur de pp fixée dans [0 ;1]\left[0\ ;1 \right], l’intervalle aléatoire [Fn1n ;Fn+1n]\left[Fn - \dfrac{1}{\sqrt{n}}\ ;Fn + \dfrac{1}{\sqrt{n}} \right] contient, pour nn assez grand, la proportion pp avec une probabilité supérieure ou égale à 0,950,95.

bannière definition

Définition

Intervalle de confiance :

Soit pp la proportion inconnue d’un caractère dans une population.

On réalise l’expérience aléatoire de nn tirages au hasard et on appelle ff la fréquence observée d’apparition du caractère.

L’intervalle [f1n ;f+1n]\left[f - \dfrac{1}{\sqrt{n}}\ ;f + \dfrac{1}{\sqrt{n}} \right] est appelé intervalle de confiance de la proportion inconnue pp au niveau de confiance 0,950,95.

bannière exemple

Exemple

On dispose d’une urne contenant un très grand nombre de boules rouges et bleues. On ignore quelle est la proportion pp de boules rouges dans l’urne et rien ne permet de faire une hypothèse sur la valeur de pp.

On procède donc à une estimation de pp en réalisant un tirage de 100100 boules. Lors de ce tirage, on obtient 5959 boules rouges et 4141 bleues.

  • Calcul de la fréquence d’apparition du rouge :

f=59100=0,59f = \dfrac{59}{100} = 0,59.

  • Recherche de l’intervalle de confiance :

I=[f1n;f+1n]=[0,591100;0,59+1100]=[0,49 ;0,69]\begin{aligned} I &= \left[f - \dfrac{1}{\sqrt{n}};f + \dfrac{1}{\sqrt{n}} \right] \ &= \left[0,59 - \dfrac{1}{\sqrt{100}};0,59 + \dfrac{1}{\sqrt{100}} \right] \ &= \left[ 0,49\ ;0,69 \right]\end{aligned}

[0,49 ;0,69] \left[ 0,49\ ;0,69 \right] est donc un intervalle de confiance à 0,950,95 de la proportion de boules rouges dans l’urne.

  • Ceci signifie qu’il y a 95 % de chances pour que la proportion de boules rouges dans l’urne appartienne à cet intervalle.

Précision d’une estimation et taille de l’échantillon

bannière theoreme

Théorème

Un intervalle de confiance au niveau 95 % est d’amplitude 2n\dfrac{2}{\sqrt{n}} donc, plus la taille de l’échantillon est grande, plus l’intervalle de confiance obtenu est précis.

Si l’on souhaite situer pp dans un intervalle de longueur donnée aa, alors on doit avoir 2na\dfrac{2}{\sqrt{n}} \leq a ce qui équivaut à n4a2n \geq \dfrac{4}{a^2}.

bannière exemple

Exemple

À l’occasion d’une élection, on réalise un sondage sur un échantillon de nn personnes afin de connaître le pourcentage d’électeurs qui souhaitent voter pour un candidat donné. On suppose la population suffisamment importante pour que ce sondage soit assimilé à un tirage avec remise.

Le but est de trouver la taille minimale de l’échantillon afin que l’intervalle de confiance de cette proportion donne celle-ci à 1 % près avec une probabilité au moins égale à 0,95 %.

On sait que l’amplitude d’un intervalle de confiance au niveau 95 % est 2n\dfrac{2}{\sqrt{n}} et pour avoir une précision à 1 % près, soit à 0,010,01 près, on doit avoir un intervalle de confiance d’amplitude 0,020,02.

On cherche donc nn tel que :

2n0,02n20,02n100n10000\begin{aligned}&\dfrac{2}{\sqrt{n}} \leq 0,02 \ &\Leftrightarrow \sqrt{n} \geq\dfrac{2}{0,02} \ &\Leftrightarrow \sqrt{n} \geq 100\ &\Leftrightarrow n \geq 10 \,000\end{aligned}

  • On doit donc interroger au moins 1000010 000 personnes.
bannière à retenir

À retenir

Un intervalle centré en pp fournit pp à la précision xx si son amplitude est 2x2x.

bannière astuce

Astuce

Bien vérifier si l’énoncé donne la précision avec laquelle on souhaite obtenir pp ou bien l’amplitude (c’est-à-dire la taille) de l’intervalle.