Déjà plus de
1 million
d'inscrits !
Loi des grands nombres et concentration
Déjà plus de
1 million
d'inscrits !
Avant de commencer, regarde la vidéo
Introduction :
Ce cours s’inscrit dans la continuité du précédent sur les sommes de variables aléatoires, et il est fondé sur une propriété, très utile « techniquement » en probabilité et en statistique, appelée inégalité de Bienaymé-Tchebychev.
Celle-ci donne un moyen de contrôler l’écart entre les valeurs prises par une variable aléatoire et son espérance, en fonction de sa variance. Plus précisément, elle donne une majoration de la probabilité que l’écart soit grand. Elle sera donc l’objet de la première partie de ce cours.
Dans la deuxième partie, nous parlerons de l’inégalité de concentration, qui est obtenue grâce à l’inégalité de Bienaymé-Tchebychev appliquée à l’échantillon d’une variable aléatoire. Cette inégalité permet de déterminer la taille d’un échantillon en fonction de la précision (de l’écart) et du risque.
Elle permet également de donner une démonstration de la loi des grands nombres, qui sera étudiée dans la troisième partie.
Inégalité de Bienaymé-Tchebychev
Commençons donc par exprimer l’inégalité de Bienaymé-Tchebychev.
Inégalité de Bienaymé-Tchebychev :
Soit une variable aléatoire d’espérance et de variance .
Pour tout réel strictement positif, on a :
Donnons une petite représentation graphique pour bien comprendre ce que nous dit cette inégalité ; nous pourrons ainsi savoir quand et comment l’utiliser.
Représentation de la distance de X à µ
Et nous nous intéressons au cas où cet écart est supérieur ou égal à :
signifie donc que appartient alors aux intervalles représentés par les demi-droites rouges.
Nous voyons sur le schéma que cela correspond au cas où appartient à l’intervalle ouvert (en vert).
Nous nous rendons aussi compte qu’il s’agit de l’événement contraire de . Nous pouvons donc écrire :
Nous obtenons donc :
Nous allons prendre un exemple pour voir comment interpréter un résultat obtenu avec l’inégalité de Bienaymé-Tchebychev.
La consommation d’eau quotidienne, en litres, d’un·e Français·e pris·e au hasard dans la population est donnée par la variable aléatoire d’espérance et de variance .
Nous nous intéressons à la probabilité que l’écart entre et l’espérance soit supérieur à litres.
On applique l’inégalité de Bienaymé-Tchebychev avec :
Pour bien comprendre ce que cela signifie, donnons l’équivalence suivante :
De ce que nous venons de dire, retenons les points suivants, auxquels il faudra penser lors de la résolution d’exercices.
Allons maintenant un peu plus loin : nous savons que l’écart-type d’une variable aléatoire donne une indication sur la dispersion de autour de son espérance .
C’est ce que nous allons faire dans l’exemple suivant, en nous servant de l’inégalité de Bienaymé-Tchebychev.
Soit la variable aléatoire qui suit une loi binomiale de paramètres et .
Ainsi, de cet exemple, nous pouvons déduire que des écarts entre et supérieurs à quelques deviennent improbables.
Nous avons aussi vu que la probabilité que l’écart entre et soit supérieur à est majorée par .
Toutefois, si l’on simule une telle expérience, on se rend compte que la probabilité d’avoir un écart supérieur à est souvent majorée par .
Inégalité de concentration
Nous allons maintenant appliquer l’inégalité de Bienaymé-Tchebychev à la moyenne d’un échantillon d’une variable aléatoire.
Considérons un échantillon de taille de la variable aléatoire , d’espérance et de variance .
Et considérons la variable aléatoire moyenne de cet échantillon.
En appliquant l’inégalité de Bienaymé-Tchebychev à , avec un réel strictement positif, nous obtenons :
Or, par les propriétés vues dans le cours précédent, nous avons :
Nous avons donc :
Inégalité de concentration :
Soit un échantillon de taille de la variable aléatoire , d’espérance et de variance .
Soit la variable aléatoire moyenne de cet échantillon :
Alors, pour tout réel strictement positif, on a :
Comme dans la première partie, nous pouvons considérer l’événement contraire de , à savoir : .
L’inégalité de concentration peut alors être écrite de la façon suivante :
Concrètement, l’inégalité de concentration nous dit :
L’inégalité de concentration permet notamment de déterminer la taille d’un échantillon en fonction d’une précision et d’un risque fixés.
L’exemple suivant va nous donner une méthodologie pour résoudre de tels problèmes.
Un institut politique a pour projet de constituer un échantillon de personnes tirées au sort parmi celles inscrites sur les listes électorales. Il s’intéresse plus particulièrement à leur participation au premier tour des dernières élections.
Sachant que la participation était de et afin d’avoir une représentativité la plus fidèle du corps électoral, l’institut souhaite connaître la taille minimale de l’échantillon à constituer pour être sûr, au moins à , que le taux de participation en son sein sera compris entre et .
Nous considérons en outre que le nombre d’inscrits sur les listes électorales est suffisamment grand pour que la constitution de l’échantillon soit assimilée à un tirage avec remise.
La variable suit une loi de Bernoulli, de paramètre .
Considérons d’abord un échantillon de taille de la variable aléatoire .
Considérons ensuite , la variable aléatoire moyenne de l’échantillon.
Nous souhaitons donc trouver tel que la probabilité que soit comprise entre () et () est supérieure ou égale à () :
Il faut donc commencer par faire apparaître l’écart entre et l’espérance de :
Nous obtenons alors :
Pour que cette probabilité soit inférieure à , il suffit que soit inférieur à .
On résout donc cette dernière inégalité pour estimer la taille de l’échantillon qui correspond aux conditions de l’énoncé.
Vérifions notre résultat en prenant un échantillon de personnes. L’inégalité de concentration donne alors :
Ce qui est équivalent à :
Remarquons que, si l’institut considérait que l’échantillon était trop grand à constituer, pour des raisons économiques ou d’organisation, il devrait accepter soit d’agrandir l’intervalle possible pour la moyenne – au risque d’avoir une majorité de votants dans l’échantillon, ce qui ne refléterait pas la réalité –, soit d’avoir un degré de confiance moindre.
Dans l’exemple ci-dessus, nous sommes revenus à la majoration de la probabilité que l’écart soit grand, et ce afin de bien montrer toutes les étapes du raisonnement.
Nous aurions toutefois pu utiliser la deuxième écriture que nous avons donnée pour arriver directement à :
Si on veut que cette probabilité soit supérieure à , il suffit que soit supérieur à .
Loi des grands nombres
Ce que nous venons de voir nous ramène à la loi des grands nombres, qui a été évoquée en seconde mais dont nous allons donner une expression plus formelle.
Loi des grands nombres :
Soit un échantillon de taille de la variables aléatoire , d’espérance .
Soit la variable aléatoire moyenne de cet échantillon.
Alors, pour tout réel strictement positif :
Donnons une démonstration de cette loi grâce à l’inégalité de concentration.
Soit la variance de la variable aléatoire .
Nous avons alors :
Par quotient des limites, et étant des constantes :
Or, est une probabilité, elle est donc supérieure ou égale à .
Nous avons ainsi l’encadrement suivant :
Concrètement, la loi des grands nombres, fondamentale en probabilité et en statistique, nous dit que la moyenne d’un échantillon d’une variable aléatoire se rapproche d’autant plus de son espérance que la taille de l’échantillon est grande.
Pour conclure ce cours, précisons que nous avons donné la loi « faible » des grands nombres.
Conclusion :
Ce cours nous a permis de découvrir des formules d’une importance majeure en probabilité : l’inégalité de Bienaymé-Tchebychev, dont nous avons déduit l’inégalité de concentration.
Et nous avons conclu notre chapitre avec la loi fondamentale de la théorie des probabilités : la loi des grands nombres. Celle-ci ouvre la porte à des applications très nombreuses, notamment en statistique, par exemple pour élaborer des sondages les plus fiables possibles.