Cours Statistique Inférentielle
►Consignes de cours
►Prérequis
- Notations Mathématiques : sommes (discrète $\Sigma$ et intégrale $\int$), racine carré, ...
- Statistique descriptive (vu en L1) : moyenne, écart-type, quantile, histogramme
►Esprit du cours (en résumé)
Commençons par rappeler que ce cours a été spécifiquement construit pour un public d'étudiants dit "non matheux". Voilà quelques points spécifiques qui le caractérisent :
- Cours de langue : Bizarrement, nous demandons aux étudiants de concevoir dans un premier temps ce cours plus comme un cours de langue plutôt qu'un cours basé sur des techniques mathématiques. Il est toutefois à noter que l'effort demandé n'est pas démesuré car le nombre de mots à apprendre sera très limité (entre 10 et 20 notations mathématiques à assimiler).
- Pas (ou très peu) de techniques mathématiques : Dans un second temps, une fois les quelques mots de langage mathématique assimilés, nous pourrons plus facilement décrire et appréhender les concepts mathématiques (en fait, probabiliste et statistique) spécifique au cours dont les aspects techniques ne reposent que sur quelques concepts de base de la Statistique Descriptive (moyenne, quantile, écart-type, histogramme).
- Représentations graphiques : Les aspects les plus techniques du cours seront toujours interprétables à partir de représentations graphiques. L'objectif du cours est clairement de comprendre les concepts de cours décrits à partir de ces représentations graphiques.
►Attitude (attendue) pour suivre le cours
Il est tout d'abord important de réaliser que les outils introduits dans ce cours sont dans la famille des cours quantitatifs les plus utiles dans de nombreux domaines applicatifs (économie, biologie, psychologie, ...).
- Nous espérons alors qu'un étudiant (normalement curieux) saura se responsabiliser en consacrant un minimum de temps. Malgré le nombre limité d'heures allouées à ce cours, il est tout de même considéré qu'avec une attitute active en cours et TD, il est possible de maîtriser en fin d'année les outils introduits dans ce cours.
- Toutefois, nous sommes conscients et nous en avertissons les étudiants que l'une des difficultés de ce cours est bien de suivre les consignes de cours. Il est notamment quasiment impossible de suivre ce cours de manière intermittente car sans investissements constants le risque est de se sentir complètement perdu et ainsi d'avoir une envie irrésistible d'abandonner les efforts.
- Une attitude devenue courante pour un étudiant ces dernières années consiste à penser que ce cours n'est pas adapté à son niveau. Nous acceptons toutes les critiques en fin d'année de la part d'étudiants soucieux comme nous d'améliorer la démarche pédagogique de ce cours. Les étudiants ne peuvent pas le savoir mais ce cours se nourrit année après année d'interactions de la sorte.
►Position du problème
►Paramètre d'intérêt INCONNU
Quand on étudie des problématiques tels que :
Mathématiquement, si $\boldsymbol{\mathcal{Y}^\bullet}=(\mathcal{Y}^\bullet_1,\cdots,\mathcal{Y}^\bullet_N)$ désigne la population ($\bullet$ devant être remplacé par un signe distinctif de la problématique : Max, A ou B), le paramètre d'intérêt est souvent la moyenne : $$ \mu^\bullet=\frac{\mathcal{Y}^\bullet_1+\cdots+\mathcal{Y}^\bullet_N}N=\frac1N\sum_{i=1}^N\mathcal{Y}^\bullet_i=:\overline{\mathcal{Y}^\bullet} $$ Attention : $\mu^\bullet$ ($\mu$ correspondant au "m" grec pour désigner une moyenne) désigne le nom du paramètre d'intérêt quand la "barre au dessus" dans $\overline{\mathcal{Y}^\bullet}$ désigne l'opérateur de moyenne. Notons aussi que dans le cas où la population ne contient que des 0 ou 1, la moyenne devient une proportion et il est alors préférable de la noter $p^\bullet=\mu^\bullet$.
- les intentions de votes pour un candidat "Max" avant un 2ème tour d'élection
- la rentabilité d'un produit A ou B avant de le lancer sur le marché
Mathématiquement, si $\boldsymbol{\mathcal{Y}^\bullet}=(\mathcal{Y}^\bullet_1,\cdots,\mathcal{Y}^\bullet_N)$ désigne la population ($\bullet$ devant être remplacé par un signe distinctif de la problématique : Max, A ou B), le paramètre d'intérêt est souvent la moyenne : $$ \mu^\bullet=\frac{\mathcal{Y}^\bullet_1+\cdots+\mathcal{Y}^\bullet_N}N=\frac1N\sum_{i=1}^N\mathcal{Y}^\bullet_i=:\overline{\mathcal{Y}^\bullet} $$ Attention : $\mu^\bullet$ ($\mu$ correspondant au "m" grec pour désigner une moyenne) désigne le nom du paramètre d'intérêt quand la "barre au dessus" dans $\overline{\mathcal{Y}^\bullet}$ désigne l'opérateur de moyenne. Notons aussi que dans le cas où la population ne contient que des 0 ou 1, la moyenne devient une proportion et il est alors préférable de la noter $p^\bullet=\mu^\bullet$.
►Echantillonnage
Une solution envisageable est alors de construire un échantillon (c-à-d, extraire une partie de la population) et de se contenter de n'avoir qu'un ordre de grandeur de la valeur du paramètre d'intérêt.
- Dans le cadre du cours, on suppose ne pas connaître de caractéristiques relatives à la population autres que sa taille $N$.
- Même si alors la notion de représentativité exacte est impossible pour un échantillon, il est souhaitable que l'échantillon ressemble le plus possible à la population (c-à-d, le plus représentatif possible).
- La construction d'un échantillon par tirage aléatoire avec ou sans remise dans la population est la solution qui garantit que tous les individus de la population ont les mêmes chances d'être choisi dans l'échantillon. La représentativité maximale (sans a priori sur la population) est ainsi garantie.
- Afin de simplifier les aspects techniques, nous choisissons de ne traiter que l'échantillonnage par tirages aléatoires avec remise. La simplicité découle du fait que tous les tirages sont dans ce cas une même expérience qui est alors répétée autant de fois que nécessaires.
- Un unique échantillon est (en général) disponible dans une étude réelle. On l'appelle échantillon du jour J et on le note $\mathbf{y}^\bullet=(y_1,\cdots,y_n)$ avec $n$ espéré le plus grand possible bien qu'étant très petit par rapport à $N$.
►Estimation
- A partir de l'échantillon $\mathbf{y}^\bullet$ remplaçant la population INCONNUE $\boldsymbol{\mathcal{Y}}^\bullet$, on peut proposer un "remplaçant" du paramètre d'intérêt (ainsi) INCONNU.
- On l'appelle officiellement estimation du paramère d'intérêt.
- Si on reprend l'exemple de la moyenne $\mu^\bullet$, on la note $\widehat{\mu^\bullet}(\mathbf{y^\bullet})$.
- Le "chapeau" placé sur le paramètre d'intérêt se dit "estimation de".
- En complément, la dépendance de cette estimation en l'échantillon se fait par l'utilisation des parenthèses (comme pour une fonction mathématique). De manière plus imagée, '$(\cdot)$' se dit "calculé à partir de".
►Nature aléatoire de l'échantillonnage et Variable aléatoire d'intérêt
Afin de satisfaire au critère de représentativité maximale, la contruction de l'échantillon est (purement) aléatoire et ainsi l'estimation qui en dépend est aussi de nature aléatoire. Nous entrons ainsi dans le monde des probabilités.
- Décrivons l'expérience aléatoire relative à une construction d'échantillon dans une population: cela consiste à faire un tirage aléatoire dans la population.
- Une manière élégante de formaliser le problème est généralement d'introduire une variable qui décrit le résultat de l'expérience. Choisir un individu dans la population revient à choisir un entier entre 1 et $N$.
- Soit $I$ un entier choisi au hasard dans $\{1,\cdots,N\}$, le résultat qui nous intéresse est donc $Y^\bullet=\mathcal{Y}^\bullet_I$.
- $Y^\bullet$ est alors de nature aléatoire car l'indice $I$ l'est aussi. $Y^\bullet$ est appelée variable aléatoire d'intérêt.
- Pour traduire la nature aléatoire de l'échantillon, nous regroupons les résultats des $n$ mêmes expériences aléatoires dans le vecteur aléatoire $\mathbf{Y}^\bullet=(Y^\bullet_1,\cdots,Y^\bullet_n)$ où $Y^\bullet_i$ est le résultat de la $i^{ème}$ répétition de $Y^\bullet$ que l'on appelle naturellement modèle. Nous n'insisterons pas ici sur la notion de modèle car dans notre cadre d'étude il se résume à une simple variable aléatoire. Il faut toutefois savoir que ce concept est central dans un cours plus avancé tel qu'un cours d'économétrie (voir en L3).
- L'échantillon $\mathbf{y}^\bullet$ du jour J est donc une réalisation de $\mathbf{Y}^\bullet$ et l'estimation $\widehat{\mu^\bullet}(\mathbf{y}^\bullet)$ est donc une réalisation de $\widehat{\mu^\bullet}(\mathbf{Y}^\bullet)$ qui est donc une variable aléatoire dite échantillonnale car sa nature aléatoire ne résulte que de celle de l'échantillon $\mathbf{Y}^\bullet$.
- de mettre l'accent sur le langage mathématique et non sur les techniques mathématiques
- de proposer une Approche Expérimentale des Probabilités (A.E.P.), complémentaire à l'A.M.P., puisqu'elle vise à proposer un décodeur de l'A.M.P. afin de comprendre et utiliser les développements des matheux qui nous sont utiles
- d'aller plus loin sur un plan méthodologique et ainsi traiter de nombreux exemples en s'appuyant sur un langage informatique R
►Approche Expérimentale des Probabilités (A.E.P.)
►Variable aléatoire d'intérêt $Y^\bullet$
►Position du problème
Dans un cours classique de Probabilités basé sur une Approche Mathématique des Probabilités (A.M.P.), l'objectif est généralement de déterminer (par le calcul) les Lois de Probabilités de variables aléatoires résultant d'un schéma expérimental.
Les résultats obtenus s'expriment sous la forme: $$Y \leadsto \mathcal{L}(\cdots) \mbox{ ou } Y \mathop{\leadsto}_{Approx.} \mathcal{L}(\cdots)$$
où $\mathcal{L}(\cdots)$ est une loi de probabilité connue des mathématiciens.
Par exemple, on peut déjà connaitre :
- loi uniforme $\mathcal{U}(E)$ sur un ensemble $E$ ($E=\{1,\cdots,6\}$ correspondant à un lancer de dé), loi binomiale $\mathcal{B}(n, p)$, ....
- les lois continues usuelles en Statistique Inférentielle (voir fin du poly de cours )
►Introduction à l'A.E.P.
Comme son nom l'indique, l'A.E.P. repose sur l'expérimentation. La démarche consiste alors à répéter $m$ (plutôt très grand) fois l'expérience aléatoire et à étudier les différentes réalisations de la variable aléatoire d'intérêt en utilisant principalement les outils de la Statistique Descriptive (vue en L1).
- Notons $y^\bullet_{[1]},y^\bullet_{[2]},\cdots,y^\bullet_{[m]}$ ces $m$ réalisations expérimentales. Le signe distinctif introduit spécialement dans ce cours basée sur l'A.E.P. est le "$_{[k]}$" ($k \in \{1,\cdots, m\}$) en indice qui désigne alors le résultat $y^\bullet_{[k]}$ de $Y^\bullet$ pour la $k^{ème}$ expérience.
- Combien d'expériences faut-il faire pour connaître exactement la variabilité de $Y^\bullet$ ? Réponse : le plus grand nombre de fois possible $m=+\infty$. Sur un plan expérimental, on peut prétendre dire que :
- lorsque $m$ est très grand, $\widehat{\Omega}_{Y^\bullet,m}=\left(y^\bullet_{[\cdot]}\right)_{m}:=\left(y^\bullet_{[1]},\cdots,y^\bullet_{[m]}\right)$ représentent "presque tous les résultats possibles de $Y^\bullet$"
- $\widehat{\Omega}_{Y^\bullet}:=\widehat{\Omega}_{Y^\bullet,\infty}=\left(y^\bullet_{[\cdot]}\right)_{\infty}:=\left(y^\bullet_{[1]},\cdots,y^\bullet_{[m]},\cdots\right)$ représentent "tous les résultats possibles de $Y^\bullet$"
►Lien avec l'A.M.P. (Approche Mathématique des Probabilités)
- Enonçons quelques éléments de décodage entre A.M.P. et A.E.P. (consistant à appliquer tout simplement les simples opérations que l'on applique généralement dans un cours de Statistique Descriptive de L1) :
- moyenne : $\color{brown}{\mathbb{E}\left(Y^\bullet\right)}=\color{darkcyan}{\overline{\left({y^\bullet_{[\cdot]}}\right)}_{\infty}\simeq \overline{\left({y^\bullet_{[\cdot]}}\right)}_{m}}:=\displaystyle \frac1m \sum_{k=1}^m y^\bullet_{[k]}$
- proportion (ou fréquence) : $\color{brown}{\mathbb{P}\left(Y^\bullet\in E\right)}=\color{darkcyan}{\overline{\left({y^\bullet}_{[\cdot]}\in E\right) }_{\infty}\simeq \overline{\left({y^\bullet}_{[\cdot]}\in E\right) }_{m}}:=\displaystyle \frac1m \sum_{k=1}^m \left(y^\bullet_{[k]}\in E\right)$ avec l'ensemble E de la forme $E=\left[a,b\right[$ ou $E=\{a\}$ ($a$ et $b$ étant des réels quelconques).
- écart-type : $\color{brown}{\sigma\left(Y^\bullet\right)}=\color{darkcyan}{\overleftrightarrow{\left({y^\bullet_{[\cdot]}}\right)}_{\infty}\simeq \overleftrightarrow{\left({y^\bullet_{[\cdot]}}\right)}_{m}}:=\displaystyle \sqrt{\frac1m \sum_{k=1}^m \left(y^\bullet_{[k]} - \overline{\left({y^\bullet_{[\cdot]}}\right)}_{m}\right)^2}$
- quantile (d'ordre $\alpha$) : $\color{brown}{q_{\alpha}\left(Y^\bullet\right)}=\color{darkcyan}{q_{\alpha}{\left({y^\bullet_{[\cdot]}}\right)}_{\infty}\simeq q_{\alpha}{\left({y^\bullet_{[\cdot]}}\right)}_{m}}$
►Représentation graphique A.E.P. comme le décodeur de l'A.M.P.
Pour représenter graphiquement les résultats expérimentaux $\widehat{\Omega}_{Y^\bullet,m}=\left(y^\bullet_{[1]},\cdots,y^\bullet_{[m]}\right)$ on va construire un $[m]$-mur officiellement appelé $[m]$-histogramme (discret ou continu selon la nature de la variable aléatoire d'intérêt) en suivant les règles suivantes :
- les "presque" tous $m$ (avec $m$ très grand) résultats expérimentaux $\widehat{\Omega}_{Y^\bullet,m}$ sont représentés par des $[m]$-briques de même forme, de même surface $\frac1m$ (c-à-d, surface totale du $[m]$-mur égale à $1=100\%$)
- les largeurs des $[m]$-briques sont
- pour variable aléatoire d'intérêt discrète : fixes et indépendantes de $m$ (idéalement le $[m]$-mur sera comme le ferait un maçon le plus compact possible ce qui fixe de manière unique la largeur des briques de sorte à juxtaposer les briques en laissant le moins possible de "trou"/"vide")
- pour variable aléatoire d'intérêt continue : $[m]$-briques de moins en moins larges lorsque le nombre d'expériences $m$ augmente.
- $Y=$"face d'une dé" se comportant comme une loi uniforme sur $\{1,\cdots,6\}$
- $Y=$"réel au hasard dans $\left[0,1\right]$" se comportant comme une loi uniforme sur $\left[0,1\right]$.
- Enjeu principal de l'A.E.P.: pensez-vous qu'il soit possible de visualiser simultanément tous les résultats expérimentaux $\widehat{\Omega}_{Y^\bullet,\infty}$ ?
- Quelles sont les formes des $[\infty]$-briques dans les cas de variables d'intérêt discrète et continue ?
- Que représente l'$[\infty]$-mur (ou $[\infty]$-histogramme) représentant l'empilement de toutes les $[\infty]$-briques ?
- Si on vous donne la forme d'un $[\infty]$-histogramme, comment feriez-vous pour choisir une nouvelle réalisation de la variable aléatoire d'intérêt $Y^\bullet$ ?
►Variable aléatoire clonée $Y^{c,\bullet}$
- Intuitivement, sauriez-vous anticiper l'$[\infty]$-histogramme associé à la variable aléatoire $Y^{c,\bullet}$ consistant à choisir au hasard une $[\infty]$-brique parmi celles de l'$[\infty]$-histogramme associé à la variable aléatoire d'intérêt $Y^\bullet$ ?
- Peut-on dire que $Y^\bullet$ et $Y^{c,\bullet}$ ont la même loi de probabilité ?
- Lorsqu'un mathématicien a réussi par un calcul à identifier de manière explicite la forme du $[\infty]$-histogramme, il lui donne un nom de loi et écrit : $Y^\bullet \leadsto \mathcal{L}_0$.
- Par exemple, pour l'expérience du dé, $Y^\bullet\leadsto \mathcal{U}(\{1,2,3,4,5,6\})$ (qui se lit "loi uniforme" sur l'ensemble des 6 faces).
- Si l'on veut prendre un exemple de variable d'intérêt continue, on peut considérer l'exemple du choix au hasard d'un réel compris entre 0 et 1. Dans ce cas, $Y^\bullet\leadsto \mathcal{U}([0,1])$.
- Dans le cas de variable aléatoire continue,
- La moyenne de 2 lancers de dés
- La moyenne de 2 réels au hasard dans $\left[0,1\right]$
►Protocole expérimental
- récolte des $m$ résultats expérimentaux : $y^\bullet_{[1]},\cdots,y^\bullet_{[m]}$
R> ## On lance un dé m=10000 fois R> m<-10000 R> y <- sample(1:6,m,replace=TRUE) R> y [1] 2 1 2 3 3 5 5 1 2 3 1 3 2 3 2 4 1 1 6 5 5 6 4 1 4 5 1 5 3 2 4 2 2 6 1 4 [37] 4 6 2 2 4 1 1 1 4 2 6 1 6 2 6 3 1 5 4 6 5 4 4 2 1 4 6 1 4 4 2 3 5 3 3 5 ... [9937] 5 3 4 4 4 2 4 1 1 2 5 6 3 5 4 4 2 6 6 3 5 6 3 4 4 4 6 5 4 3 2 5 6 4 3 4 [9973] 3 4 4 2 1 5 6 5 6 3 1 3 2 2 4 2 6 3 3 3 4 1 6 1 5 4 2 1
- tri par ordre croissant
R> sort(y) [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 [37] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ... [9937] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 [9973] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
- quelques résumés
R> mean(y) [1] 3.4998 R> sd(y) [1] 1.713445 R> summary(y) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.0 2.0 4.0 3.5 5.0 6.0
- table des répartitions
R> ## table des fréquences en pourcentages R> table(y)/m*100 y 1 2 3 4 5 6 17.03 16.48 16.15 16.69 17.12 16.53 R> ## les proportions R> mean(y==1)*100 [1] 17.03 R> mean(y==2)*100 [1] 16.48 R> mean(y==6)*100 [1] 16.53
►Variable aléatoire échantillonnale
►Expérience aléatoire consistant à constuire un échantillon
Comme l'objectif de ce cours est d'aider à appréhender les outils usuels de Statistique Inférentielle, nous allons nous concentrer sur l'expérimentation qui nous a amené à considérer l'aléatoire. En effet, pour espérer avoir les meilleures estimations du paramètres d'intérêt (INCONNU), il est requis de satisfaire au critère de représentativité maximale obtenue via la construction d'échantillon avec remise dans la population.
►Schéma expérimental A.E.P. (décodeur de A.M.P.)
Précisons quelques notations utilisées dans le schéma ci-dessous:
- $\theta$ désigne un paramètre (généralement, une moyenne dans ce cours) quand $\theta^\bullet$ désigne le paramètre INCONNU
- $\widehat\theta(\cdot)$ désigne une estimation du paramètre $\theta$ calculée à partir de données "$\cdot$"
- $t(\cdot)$ désigne une statistique ( éventuellement de test) dépendant de données "$\cdot$"
- les données sont selon où on se place dans le temps
- données réelles: ${\mathbf{ y }}$ récoltées le jour J et associées au présent (en tant que temps de conjugaison)
- données aléatoires: ${\mathbf{ Y }}$ pas encore récoltées puisqu'avant le jour J et donc associées au futur (en tant que temps de conjugaison)
- données possibles ou virtuelles: $\left({\mathbf{ y }}_{[k]}\right)_{k=1,\cdots,+\infty}$ correspondant à toutes les données possibles pour ${\mathbf{ Y }}$, dont ${\mathbf{ y }}$ fait partie, et donc associées au conditionnel (en tant que temps de conjugaison)
| Avant le jour J | ||||
| ($\theta$ fixé à $\theta^\bullet$ INCONNU ou éventuellement à toute valeur arbitraire pour l'expérimentation) | ||||
| Mathématique | ${\mathbf{ Y }}$ | $Y$ | $\widehat{\theta}({\mathbf{ Y }})$ ou $\widehat\Theta$ | $t({\mathbf{ Y }})$ ou $T$ |
| ${\mathbf{ y }}_{[1]}$ | $\left\{ \begin{array}{c} y_{[1]}\\ \vdots \\ y_{[n]} \end{array} \right.$ | $\widehat{\theta}({\mathbf{ y }}_{[1]})$ ou $\widehat\theta_{[1]}$ | $t( {\mathbf{ y }}_{[1]})$ ou $t_{[1]}$ | |
| Expérimental | ${\mathbf{ y }}_{[2]}$ | $\left\{ \begin{array}{c} y_{[n+1]}\\ \vdots \\ y_{[2n]} \end{array} \right.$ | $\widehat{\theta}({\mathbf{ y }}_{[2]})$ ou $\widehat\theta_{[2]}$ | $t( {\mathbf{ y }}_{[2]})$ ou $t_{[2]}$ |
| $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | |
| ${\mathbf{ y }}_{[m]}$ | $\left\{ \begin{array}{c} y_{[(m-1)\times n+1]}\\ \vdots \\ y_{[m\times n]} \end{array} \right.$ | $\widehat{\theta}({\mathbf{ y }}_{[m]})$ ou $\widehat\theta_{[m]}$ | $t( {\mathbf{ y }}_{[m]})$ ou $t_{[m]}$ | |
| $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | |
| Moyenne = | $\mu:=\overline{\left({ y_{[\cdot]}}\right)}_{ \infty}=\mathbb{E}\left( Y \right)$ | $\overline{\left({ \widehat{ \theta }\left({\mathbf{ { y_{[\cdot]} } }}\right)}\right)}_{ \infty}=\mathbb{E}\left( \widehat{ \theta }\left({\mathbf{ { Y } }}\right) \right)$ | $\overline{\left({ t({\mathbf{ y }}_{[\cdot]})}\right)}_{ \infty}=\mathbb{E}\left( t({\mathbf{ Y }}) \right)$ | |
| Ecart-Type = | $\begin{aligned} \sigma & := {\overleftrightarrow{\left({ y_{[\cdot]}}\right)}_{ \infty}} \\ & = \sigma(Y) \\ & = \sqrt{\mathbb{V}ar\left( Y \right)} \end{aligned}$ | $\begin{aligned} \sigma_{\widehat{\theta}}&:= {\overleftrightarrow{\left({ \widehat{ \theta }\left({\mathbf{ { y_{[\cdot]} } }}\right)}\right)}_{ \infty}} \\ &= \sigma(\widehat{ \theta }\left({\mathbf{ { Y } }}\right))\\ &=\sqrt{\mathbb{V}ar\left( \widehat{ \theta }\left({\mathbf{ { Y } }}\right) \right)} \end{aligned}$ | $\begin{aligned} {\overleftrightarrow{\left({ t({\mathbf{ y }}_{[\cdot]})}\right)}_{ \infty}}&=\sigma(t({\mathbf{ Y }})) \\ &=\sqrt{\mathbb{V}ar\left( t({\mathbf{ Y }}) \right)} \end{aligned}$ | |
| Proportion dans $[a,b[$ = | $\begin{aligned} \overline{\left({ y_{[\cdot]}\in [a,b[}\right)}_{ \infty}\\ =\mathbb{P}(Y\in[a,b[) \end{aligned}$ | $\begin{aligned} \overline{\left({ \widehat{ \theta }\left({\mathbf{ { y_{[\cdot]} } }}\right)\in [a,b[}\right)}_{ \infty}\\ =\mathbb{P}(\widehat{ \theta }\left({\mathbf{ { Y } }}\right)\in[a,b[) \end{aligned}$ | $\begin{aligned} \overline{\left({ t({\mathbf{ y }}_{[\cdot]})\in [a,b[}\right)}_{ \infty}\\ =\mathbb{P}(t({\mathbf{ Y }})\in[a,b[) \end{aligned}$ | |
| Histogramme à pas "zéro" = | $f_Y$ | $f_{\widehat{ \theta }\left({\mathbf{ { Y } }}\right)}$ ou $f_{\widehat\Theta}$ | $f_{t({\mathbf{ Y }})}$ ou $f_T$ | |
| Surface brique ($m$ fini) = | $\frac1{mn}$ | $\frac1m$ | $\frac1m$ | |
| Après le jour J | ||||
| ($\theta$ est égal à $\theta^\bullet$ toujours INCONNU) | ||||
| Pratique | ${\mathbf{ y }}$ | $\left\{ \begin{array}{c} y_{1}\\ \vdots \\ y_{n} \end{array} \right.$ | $\widehat{\theta}({\mathbf{ y }})$ ou $\widehat\theta$ | $t({\mathbf{ y }})$ ou $t$ |
►Répartition universelle de la Moyenne échantillonnale $\overline{Y^\bullet}$
Lorsque $n$ devient de plus en plus grand, la forme de l'$[\infty]$-mur de toutes les estimations $\widehat{\Omega}_{\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}$ ne change approximativement pas et ce indépendamment de la répartition de la variable d'intérêt $Y^\bullet$.
►Estimation, Qualité d'estimation et Intervalle de Confiance
►Estimation de moyenne
- Estimation de moyenne $\mu^\bullet$ :
- le jour J : $\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet}\right)$ (présent),
- avant le jour J : $\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)$ (futur)
- les possibles du jour J : $\left(\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet_{[\cdot]}}\right)\right)_\infty$ (conditionnel)
- Répartition en $[\infty]$-mur de toutes les estimations $\left(\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet_{[\cdot]}}\right)\right)_\infty$ (loi de proba de $\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)$)
►Qualités d'estimation
si on veut espérér disposer le jour J d'une estimation la plus précise possible, il vaudrait mieux la choisir (au hasard) dans un $[\infty]$-mur le plus concentré possible autour de $\mu^\bullet$.
Bonnes nouvelles, on a :
En résumé, le jour J, à partir de l'échantillon $\boldsymbol y^\bullet$, on calcule à la fois l'estimation $\widehat{\mu^\bullet}(\boldsymbol y^\bullet)$ et son erreur standard $\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol y^\bullet\right)$.
- Estimation sans biais: le biais d'estimation mesuré par l'écart entre le paramètre d'intérêt $\mu^\bullet$ et la moyenne $\overline{\left(\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet_{[\cdot]}}\right)\right)}_\infty$ de toutes les estimations $\widehat{\Omega}_{\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}:=\left(\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet_{[\cdot]}}\right)\right)_\infty$ est nul, c-à-d, l'$[\infty]$-mur des $\widehat{\Omega}_{\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}$ est centré en $\mu^\bullet$
- Convergence de l'estimation: quand la taille d'échantillon $n$ est d'autant plus grande ($n\rightarrow \infty$), la qualité d'estimation $\displaystyle \sigma_{\widehat{\mu}^\bullet}:=\overleftrightarrow{\left(\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet_{[\cdot]}}\right)\right)}_\infty$ mesurant la dispersion des $\widehat{\Omega}_{\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}:=\left(\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet_{[\cdot]}}\right)\right)_\infty$ est d'autant plus proche de 0, c-à-d l'$[\infty]$-mur des $\widehat{\Omega}_{\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}$ est d'autant plus concentré autour du paramètre d'intérêt $\mu_{Y^\bullet}$.
En résumé, le jour J, à partir de l'échantillon $\boldsymbol y^\bullet$, on calcule à la fois l'estimation $\widehat{\mu^\bullet}(\boldsymbol y^\bullet)$ et son erreur standard $\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol y^\bullet\right)$.
►Estimation par intervalle de confiance
►Introduction
- Quelle confiance accordez-vous à deux estimations obtenues à partir de 2 echantillons de tailles respectives $n=5$ et $n=1000$ ?
- Plus généralement, quelle confiance doit-on accorder à une estimation $\widehat{\mu^\bullet}\left(\boldsymbol y^\bullet\right)$ le jour J selon son erreur standard $\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol y^\bullet\right)$ plus ou moins grande.
- Interprétation des résultats d'un sondage avant le premier tour des élections présidentielles 2002 : votre attitude aurait-elle été influencée si à la place d'une estimation $\widehat{p^J}\left(\boldsymbol y\right)$ (autour de $17\%$) pour le candidat Jospin, on vous avait fourni une "fourchette" $[14.67\%,19.33\%]$. Il paraît que cette information ne nous est pas fourni car les Français ne sauraient pas interpréter ce type de résultats. Qu'en pensez-vous ?
►Construction via l'A.M.P.
- Rappelons tout d'abord la dernière forme du TCL vue dans la partie Répartition universelle de la Moyenne échantillonale.
- Comme l'objectif d'un intervalle à $1-\alpha=95\%$ de confiance est d'écarter une proportion raisonnable d'échantillons $\alpha=5\%$ qui sont les moins fiables, gardons alors uniquement les $1-\alpha=95\%$ échantillons dont on a le plus confiance, c-à-d les échantillons dont les écarts standardisés sont entre les 2 barres qui sont placés environ en -2 et 2 :
- En ne sélectionnant que ces $1-\alpha$ échantillons, on peut alors dire que : $$ 1-\alpha\simeq\mathbb P\left(-{\color{blue}\delta^+_{lim,\frac{\alpha}2}}\leq \delta_{\widehat{\mu^\bullet},\mu^\bullet}(\boldsymbol Y^\bullet) \leq{\color{blue}\delta^+_{lim,\frac{\alpha}2}}\right)\text{ avec }{\color{blue}\delta^+_{lim,\frac{\alpha}2}}\left\{\begin{array}{l}=q_{1-\frac\alpha2}(\mathcal{N}(0,1))\\ \simeq {\color{purple}1.96} \text{ si }{\color{purple}\alpha=5\%}\end{array}\right. $$ $$ 1-\alpha\simeq\mathbb P\left(-{\color{blue}\delta^+_{lim,\frac{\alpha}2}} \leq \frac{\color{blue}{\widehat{\mu^\bullet}\left(Y^\bullet\right)}-\color{red}{\mu^\bullet}}{\color{blue}{\widehat{\sigma_{\widehat{\mu^\bullet}}}\left(Y\right)}} \leq{\color{blue}\delta^+_{lim,\frac{\alpha}2}}\right) $$ $$ 1-\alpha\simeq \mathbb P \left( \underbrace{\color{blue}{\widehat{\mu^\bullet}\left(Y^\bullet\right)}\!-\!\color{blue}{\delta^+_{lim,\frac{\alpha}2}} \!\times\! \color{blue}{\widehat{\sigma_{\widehat{\mu^\bullet}}}\left(Y^\bullet\right)}}_{\color{purple}{\widetilde{\mu^\bullet}_{\inf}\left(Y^\bullet\right)}} \!\leq\!{\color{red}{\mu^\bullet}}\!\leq\! \underbrace{\color{blue}{\widehat{\mu^\bullet}\left(Y^\bullet\right)}\!+\!\color{blue}{\delta^+_{lim,\frac{\alpha}2}}\times \color{blue}{\widehat{\sigma_{\widehat{\mu^\bullet}}}\left(Y^\bullet\right)}}_{\color{purple}{\widetilde{\mu^\bullet}_{\sup}\left(Y^\bullet\right)}} \right) $$
- En résumé,
►Interprétation via l'A.E.P.
- Appliquer la formule d'obtention de l'Intervalle de Confiance ci-dessus le jour J est équivalent à choisir au hasard une $[\infty]$-brique parmi toutes les $[\infty]$-briques associées à tous les écarts standardisés réparties selon une loi normale centrée réduite
- quand on tombe sur les $95\%$ (approximativement) les plus proches de 0, notre formule nous donne un bon intervalle de confiance dans le sens où il contient le paramètre d'intérêt INCONNU $\mu^\bullet$
- sinon, quand on tombe sur les autres $5\%$, on obtient un mauvais intervalle de confiance ne contenant pas le paramètre d'intérêt INCONNU $\mu^\bullet$
- Application avec l'application "Fourchette"
- En résumé,
- $\overline{\left(\mu^\bullet \in IC_{\mu^\bullet,1-\alpha}\left(\boldsymbol y^\bullet_{[\cdot]}\right)\right)_{\infty}}$
- $\mathbb P\left(\mu^\bullet \in IC_{\mu^\bullet,1-\alpha}\left(\boldsymbol y^\bullet\right)\right)$
- $\mathbb P\left(\mu^\bullet \in IC_{\mu^\bullet,1-\alpha}\left(\boldsymbol y^\bullet_{[k]}\right)\right)$
- $\mathbb P\left(\mu^\bullet \in IC_{\mu^\bullet,1-\alpha}\left(\boldsymbol Y^\bullet\right)\right)$
►Tests d'hypothèses comme Outils d'aide à la décision
►Introduction
En complément de l'outil d'estimation d'un paramètre d'intérêt par intervalle de confiance, on va s'intéresser à un deuxième outil de base autour de l'aide à la décision, à savoir le test d'hypothèses.
Avec une pointe d'humour, on peut dire que ces deux outils sont les "fourchette" et "couteau" de la Statistique Inférentielle.
Appli Internet : Afin d'avoir une compréhension plus active, il est fortement conseillé de parcourrir les étapes du cours suivantes en jouant avec l'appli internet (qui s'ouvre dans un nouvel onglet de votre navigateur). Les consignes d'utilisation seront fournies au fur et à mesure. Voilà une présentation très sommaire des éléments graphiques
Appli Internet : Afin d'avoir une compréhension plus active, il est fortement conseillé de parcourrir les étapes du cours suivantes en jouant avec l'appli internet (qui s'ouvre dans un nouvel onglet de votre navigateur). Les consignes d'utilisation seront fournies au fur et à mesure. Voilà une présentation très sommaire des éléments graphiques
- la scène est divisée en 2 parties séparées verticalement
- celle du haut propose les éléments graphiques correspondant au paramètre d'intérêt
- celle du bas propose les éléments graphiques correspondant au paramètre d'écart (standardisé) (introduit plus tard)
- les éléments graphiques sont au choix : des barres verticales, des courbes, double-flèches et des surfaces
►Affirmation d'intérêt
Dans le cadre de ce cours, une affirmation d'intérêt s'exprime par la comparaison du paramètre d'intérêt INCONNU , noté à partir de maintenant $\theta^\bullet$ (pouvant être en autres choses, une proportion $p^\bullet$, une moyenne $\mu^\bullet$ et une variance $\sigma^2_\bullet$)
- $\boldsymbol{H_1}: \theta^\bullet<\theta_0$ (unilatéral gauche)
- $\boldsymbol{H_1}: \theta^\bullet>\theta_0$ (unilatéral droit)
- $\boldsymbol{H_1}: \theta^\bullet\neq\theta_0$ (bilatéral)
- sélectionner le paramètre de moyenne et laisser les paramètres par défaut puis cliquer sur le bouton "Go" correspondant à la problématique du produit B (affirmation d'intérêt : produit B rentable ssi $\mu^B>0.15$)
- reconnaître les différents éléments et essayer de comprendre le code des couleurs utilisées
- faire déplacer la barre rouge et essayer de décrire ce que vous voyez et comprenez
►Paramètre d'écart
Lorsqu'on s'intéresse aux affirmations d'intérêt précédentes exprimant des compaisons entre le paramètre d'intérêt $\theta^\bullet$ et une valeur de référence $\theta_0$, il est naturel se s'intéresser à toute forme d'écart entre $\theta^\bullet$ et $\theta_0$.
Introduisons alors le paramètre d'écart (standardisé) $\delta_{\theta^\bullet,\theta_0}$ en langage littéral puis mathématique : $$\mathbf{\text{paramètre d'écart}}:=\mathbf{\frac{\text{paramètre d'intérêt - valeur de référence}}{\text{qualité d'estimation}}}$$ $$\delta_{\theta^\bullet,\theta_0}:=\frac {\theta^\bullet-\theta_0}{\sigma_{\widehat\theta^\bullet}}$$ A priori, le rôle du dénominateur (ici le paramètre de qualité d'estimation) joue un rôle plus technique qu'informatif à la différence du numérateur qui mesure l'écart absolu entre $\theta^\bullet$ et $\theta_0$.
Pour le cas particulier d'une proportion, il est même préférable de modifier le dénominateur. $$\delta_{p^\bullet,p_0}:=\frac {p^\bullet-p_0}{\sqrt{\frac{p_0(1-p_0)}n}}$$ Indépendamment de l'expression du paramètre d'écart (standardisé), il est nous est offert la possibilité de réexprimer l'affirmation d'intérêt. Compte tenu de nos choix précédents, on peut réécrire les affirmations d'intérêt comme suit :
Introduisons alors le paramètre d'écart (standardisé) $\delta_{\theta^\bullet,\theta_0}$ en langage littéral puis mathématique : $$\mathbf{\text{paramètre d'écart}}:=\mathbf{\frac{\text{paramètre d'intérêt - valeur de référence}}{\text{qualité d'estimation}}}$$ $$\delta_{\theta^\bullet,\theta_0}:=\frac {\theta^\bullet-\theta_0}{\sigma_{\widehat\theta^\bullet}}$$ A priori, le rôle du dénominateur (ici le paramètre de qualité d'estimation) joue un rôle plus technique qu'informatif à la différence du numérateur qui mesure l'écart absolu entre $\theta^\bullet$ et $\theta_0$.
Pour le cas particulier d'une proportion, il est même préférable de modifier le dénominateur. $$\delta_{p^\bullet,p_0}:=\frac {p^\bullet-p_0}{\sqrt{\frac{p_0(1-p_0)}n}}$$ Indépendamment de l'expression du paramètre d'écart (standardisé), il est nous est offert la possibilité de réexprimer l'affirmation d'intérêt. Compte tenu de nos choix précédents, on peut réécrire les affirmations d'intérêt comme suit :
- $\boldsymbol{H_1}: \delta_{\theta^\bullet,\theta_0}<0$ (unilatéral gauche)
- $\boldsymbol{H_1}: \delta_{\theta^\bullet,\theta_0}>0$ (unilatéral droit)
- $\boldsymbol{H_1}: \delta_{\theta^\bullet,\theta_0}\neq 0$ (bilatéral)
- activer l'élément graphique (barre, courbe, flêches) correspondant au paramètre d'écart (standardisé)
- activer l'élément graphique (barre, courbe, flêches) correspondant à l'ensemble des estimations possibles du paramètre d'écart (standardisé)
►Forme de la Règle de décision
Pour aller plus vite et donc ne pas s'éterniser sur des explications pas très informatives, on affirme tout de suite que l'introduction du paramètre d'écart (standardisé) est nécessaire si l'on veut réussir à construire l'outil d'aide à la décision pour tous les types de paramètres que l'on considèrera. La seule information réellement à comprendre est que l'affirmation d'intérêt s'exprime de manière équivalente à la fois avec le paramètre d'intérêt et le paramètre d'écart (standardisé)
Le jour J, il nous faudra décider au vu du jeu de données (l'échantillon $\mathbf{y}^\bullet$) si nous pensons que l'affirmation d'intérêt nous semble plutôt vraie. Insistons en effet sur le fait que puisque le paramètre d'intérêt est INCONNU, il ne sera pas possible d'être certain de la décision prise au vu du jeu de données. La forme de la Règle de Décision s'exprime assez naturellement par :
Accepter l'affirmation d'intérêt si
Appli Internet : à partir du menu de boutons en bas de page (Rappel : $\theta$ doit être remplacé par $\mu$ pour le produit B)
Le jour J, il nous faudra décider au vu du jeu de données (l'échantillon $\mathbf{y}^\bullet$) si nous pensons que l'affirmation d'intérêt nous semble plutôt vraie. Insistons en effet sur le fait que puisque le paramètre d'intérêt est INCONNU, il ne sera pas possible d'être certain de la décision prise au vu du jeu de données. La forme de la Règle de Décision s'exprime assez naturellement par :
Accepter l'affirmation d'intérêt si
- $\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet\right) < \delta^-_{lim}$
- $\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet\right) > \delta^+_{lim}$
- $\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet\right) < \delta^-_{lim}$ ou $\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet\right) > \delta^+_{lim}$
Appli Internet : à partir du menu de boutons en bas de page (Rappel : $\theta$ doit être remplacé par $\mu$ pour le produit B)
- activer l'élément graphique (barre, courbe, flêches) correspondant au seuil limite $\delta^+_{lim}$ ($+$ signifie "droite")
- activer l'élément graphique (barre, courbe, flêches) correspondant à l'ensemble de toutes les estimations possibles du paramètre d'écart (standardisé)
- à quoi correspond graphiquement l'OBJECTIF décrit ci-dessus ?
- est-ce possible à cette étape de finaliser la Règle de Décision ?
►Erreurs de décision et Risques associés
Ayant pris conscience qu'il n'y a aucune chance de ne pas se tromper en appliquant un tel outil d'aide à la décision, analysons alors tous les scenaris possibles. Pour fixer les idées commençons par traiter l'exemple du test unilatéral droit ($\mathbf{H_1}:\theta^\bullet>\theta_0$). Les autres cas se généralisent dans le même esprit. Apportons alors des réponses aux questions suivantes (en utilisant notamment l'outil graphique fourni à la fin de ce document dans la section "Supports de cours")
- Erreur de type I: supposons que l'affirmation d'intérêt est fausse (on se place dans une des MAUVAISES situations non $\boldsymbol{H_1}: \theta^\bullet\leq \theta_0$), est-il possible le jour J de tomber sur un échantillon $\mathbf y^\bullet$ nous conduisant à accepter l'affirmation d'intérêt (à savoir, $\widehat{\delta_{\theta^\bullet,\theta_0}}(\mathbf y^\bullet)>\delta^+_{lim}$).
- Erreur de type II: supposons alternativement que l'affirmation d'intérêt est vraie (on se place dans une des BONNES situations $\boldsymbol{H_1}: \theta^\bullet > \theta_0$), est-il possible le jour J de tomber sur un échantillon $\mathbf y^\bullet$ nous conduisant à NE PAS accepter l'affirmation d'intérêt (à savoir, $\widehat{\delta_{\theta^\bullet,\theta_0}}(\mathbf y^\bullet)\ngtr\delta^+_{lim}$).
- Pour chacun de ces deux types d'erreur, sauriez-vous évaluer les chances de se tromper dans sa décision ? Si tel est le cas, les probabilités correspondantes seraient appelées risque d'erreur de décision de type I ou II.
- fonction puissance : $\gamma(\theta):=\color{brown}{\mathbb{P}_{\theta^\bullet=\theta}\left(\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol Y^\bullet\right) > \delta^+_{lim}\right)}=\color{teal}{\left.\overline{\left(\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet_{[\cdot]}\right) > \delta^+_{lim}\right)}_{\infty}\right|_{\theta^\bullet=\theta}}$
- le risque de type I : $\alpha(\theta):=\gamma(\theta)=\color{brown}{\mathbb{P}_{\theta^\bullet=\theta}\left(\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol Y^\bullet\right) > \delta^+_{lim}\right)}=\color{teal}{\left.\overline{\left(\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet_{[\cdot]}\right) > \delta^+_{lim}\right)}_{\infty}\right|_{\theta^\bullet=\theta}}$ avec $\theta\leq\theta_0$ (c-à-d MAUVAISES situations non $\boldsymbol{H_1}$)
- le risque de type II : $\beta(\theta):=1-\gamma(\theta)=\color{brown}{\mathbb{P}_{\theta^\bullet=\theta}\left(\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol Y^\bullet\right) \ngtr \delta^+_{lim}\right)}=\color{teal}{\left.\overline{\left(\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet_{[\cdot]}\right) \ngtr \delta^+_{lim}\right)}_{\infty}\right|_{\theta^\bullet=\theta}}$ avec $\theta>\theta_0$ (c-à-d BONNES situations $\boldsymbol{H_1}$)
- quelle est la plus grande valeur prise par la somme des deux risques de type I et II (autrement dit, $\max_\theta(\alpha(\theta))+\max_\theta(\beta(\theta))$) ?
(Appli Internet : déplacer la barre correspondant au paramètre d'intérêt et faire afficher tour à tour les plus grands risques de type I et II) - peut-on alors construire une Règle de Décision qui permet de controler les DEUX risques de type I et II ?
- les risques sont-ils plus graves pour les BONNES ou MAUVAISES situations (risques à exprimer littéralement) ?
- si l'on ne se concentre que sur les risques les plus graves, quelle est la PIRE des MAUVAISES situations ?
- en se plaçant dans cette PIRE des situations (appelée dorénavant $\boldsymbol H_0: \theta^\bullet=\theta_0$), le risque de type I (le plus GRAVE) est-il maximal ?
►Contrôle du risque maximal de mal décider l'affirmation d'intérêt
Ne pouvant contrôler que le risque (le plus GRAVE) de type I, on finalise la construction de la Règle de Décision en se plaçant dans la PIRE des situations $\boldsymbol H_0: \theta^\bullet=\theta_0$ où le risque de type I est maximal.
Dans cette situation $\boldsymbol H_0: \theta^\bullet=\theta_0$, on sait que $$ \widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol Y^\bullet\right):=\frac{\color{blue}{\widehat{\theta^\bullet}\left(\boldsymbol{Y^\bullet}\right)}-\color{blue}{\theta_0}}{\color{blue}{\widehat{\sigma_{\widehat\theta^\bullet}}\left(\boldsymbol Y^\bullet\right)}} $$ Pour un paramètre de moyenne ($\theta^\bullet:=\mu^\bullet$), on a alors $$\widehat{\delta_{\mu^\bullet,\mu_0}}\left(\boldsymbol Y^\bullet\right):=\frac{\color{blue}{\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}-\color{blue}{\mu_0}}{\color{blue}{\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol Y^\bullet\right)}} \mathop{\leadsto}_{Approx.} \mathcal{N}(0,1) $$ Pour un paramètre de proportion ($\theta^\bullet:=p^\bullet$), on a en particulier $$\widehat{\delta_{p^\bullet,p_0}}\left(\boldsymbol Y^\bullet\right):=\frac{\color{blue}{\widehat{p^\bullet}\left(\boldsymbol{Y^\bullet}\right)}-\color{blue}{p_0}}{\color{blue}{\sqrt{\frac{p_0(1-p_0)}{n}}}} \mathop{\leadsto}_{Approx.} \mathcal{N}(0,1) $$ En exercice, vous êtes invité (comme d'habitude) à interpréter via l'A.E.P. en décodant ces résultats obtenus via l'A.M.P..
Avant de finaliser la construction notons $\alpha=\max_\theta(\alpha(\theta))$ le risque maximal de type I
Appli Internet : finalisation de la Règle de Décision
Dorénavant, le(s) seuil(s) limite sera (seront) noté(s) selon la nature du test
Dans cette situation $\boldsymbol H_0: \theta^\bullet=\theta_0$, on sait que $$ \widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol Y^\bullet\right):=\frac{\color{blue}{\widehat{\theta^\bullet}\left(\boldsymbol{Y^\bullet}\right)}-\color{blue}{\theta_0}}{\color{blue}{\widehat{\sigma_{\widehat\theta^\bullet}}\left(\boldsymbol Y^\bullet\right)}} $$ Pour un paramètre de moyenne ($\theta^\bullet:=\mu^\bullet$), on a alors $$\widehat{\delta_{\mu^\bullet,\mu_0}}\left(\boldsymbol Y^\bullet\right):=\frac{\color{blue}{\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}-\color{blue}{\mu_0}}{\color{blue}{\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol Y^\bullet\right)}} \mathop{\leadsto}_{Approx.} \mathcal{N}(0,1) $$ Pour un paramètre de proportion ($\theta^\bullet:=p^\bullet$), on a en particulier $$\widehat{\delta_{p^\bullet,p_0}}\left(\boldsymbol Y^\bullet\right):=\frac{\color{blue}{\widehat{p^\bullet}\left(\boldsymbol{Y^\bullet}\right)}-\color{blue}{p_0}}{\color{blue}{\sqrt{\frac{p_0(1-p_0)}{n}}}} \mathop{\leadsto}_{Approx.} \mathcal{N}(0,1) $$ En exercice, vous êtes invité (comme d'habitude) à interpréter via l'A.E.P. en décodant ces résultats obtenus via l'A.M.P..
Avant de finaliser la construction notons $\alpha=\max_\theta(\alpha(\theta))$ le risque maximal de type I
Appli Internet : finalisation de la Règle de Décision
- faire un peu de nettoyage en n'affichant que les éléments graphiques utiles pour construire la Règle de Décision
- déplacer enfin le seuil limite $\delta_{lim}^+$ de sorte à avoir un risque $\alpha$ (maximal de type I) raisonnable (autour de 5%)
- à quelle position (en abscisse) se trouve ce seuil limite (fournir l'instruction R)
- écrire la Règle de Décision nous assurant un risque maximal de type I (accepter affirmation d'intérêt à tort) fixé à 5%
- faire afficher les estimations du paramètre d'intérêt et paramètre d'écart (standardisé) et appliquer cette Règle de Décision avec des estimations de moyenne et écart-type fixées à $\widehat{\mu^B}(\boldsymbol y^B)=0.17$ et $\widehat{\sigma_B}(\boldsymbol y^B)=0.35$ (i.e. avec une erreur standard $\widehat{\sigma_{\widehat\mu^B}}(\boldsymbol y^B)=0.35/\sqrt{1000}=0.011$)
- peut-on penser que le produit B est rentable si l'on est prêt à accepter 5% de risque maximal de type I ?
Dorénavant, le(s) seuil(s) limite sera (seront) noté(s) selon la nature du test
- unilatéral gauche : $\delta_{lim,\alpha}^-$
- unilatéral droit : $\delta_{lim,\alpha}^+$
- bilatéral : $\delta_{lim,\frac\alpha2}^-$ et $\delta_{lim,\frac\alpha2}^+$
►P-valeur ou Risque pour accepter l'affirmation d'intérêt avec les données
Malgré les apparences, nous n'avons pas tout à fait terminer le travail car il reste à reformuler la Règle de Décision de manière totalement équivalente mais surtout bien plus élégante et donc facile à appliquer.
Ayant compris que lorsqu'on prend une décision avec les données, on accepte un risque $\alpha$ maximal de type I fixé à un certain niveau (généralement 5%), on peut justement se demander quel est le risque (maximal de type I) à choisir (de manière économique) pour accepter l'affirmation d'intérêt avec les données ?
Appli Internet :
accepter l'affirmation d'intérêt si $p-valeur < \alpha$
avec p-valeur=le (plus petit) risque ($\alpha$ maximal de type I) à encourir pour accepter l'affirmation d'intérêt avec les données
Ayant compris que lorsqu'on prend une décision avec les données, on accepte un risque $\alpha$ maximal de type I fixé à un certain niveau (généralement 5%), on peut justement se demander quel est le risque (maximal de type I) à choisir (de manière économique) pour accepter l'affirmation d'intérêt avec les données ?
Appli Internet :
- déplacer la barre verte $\delta_{lim,\alpha}^+$ et changer ainsi le $\alpha$ (risque maximal de type I) afin d'accepter l'affirmation d'intérêt avec le risque maximal de type I fixé à sa plus petite valeur
- cliquer sur le bouton "p-valeur", afficher le risque $\alpha$ ainsi que le seuil limite et essayer de reformuler la Règle de Décision
accepter l'affirmation d'intérêt si $p-valeur < \alpha$
avec p-valeur=le (plus petit) risque ($\alpha$ maximal de type I) à encourir pour accepter l'affirmation d'intérêt avec les données
►Approche Expérimentale des Probabilités
[A.E.P.]: l'objectif est d'appréhender
- la notion de distribution (ou loi de probabilité) de (transformée $t(Y)$ de) variable aléatoire $Y$ qui consiste en la répartition d'un grand nombre (en théorie, une infinité) de résultats (i.e. observation simulée) possibles
- la notion de distribution de variable aléatoire échantillonnale (i.e. statistique) $t(\mathbf{Y})$ obtenue grâce à une expression dépendant d'un (futur) échantillon qui sera expérimentalement répété un grand nombre (voire une infinité) de fois
- l'illustration du Théorème de la Limite Centrale (TCL en anglais) qui peut se résumer en l'étude de l'évolution de la distribution de la moyenne échantillonnale (standardisée) lorsque la taille d'échantillon augmente
- la notion d'intervalle de confiance
- Choisir une expérience (ici loi de $Y$) et éventuellement une transformation $t(Y)$ ou $t(\mathbf{Y})$ avec choix éventuel de la taille échantillonnale
- Choisir d'activer ou pas (bouton vert en haut à droite) le mode expérimental "variable aléatoire clonée" (voir détail du cours) consistant à choisir un point au hasard sous un $[+\infty]-histogramme$ (i.e. densité de probabilité dans le cas de v.a. continue) prédéfini par le choix de l'expérimentation faite à la première étape.
- Dans le cas de l'illustration de la notion d'intervalle de confiance, ne pas oublier de fixer le bouton orange script à "ic".
- La scène d'en haut représente la répartition d'un certain nombre $m$ d'expériences (via un $[m]$-histogramme) quand la scène d'en bas représente la même répartition de l'accumulation de toutes les expériences générées dynamiquement. A la fin de l'expérimentation (et en supposant que le nombre total $m$ d'expériences réalisées est assez grand), l'histogramme de la scène d'en bas représente "au mieux" la distribution de la variable aléatoire fixée à la première étape.
- Pour lancer (ou faire une pause) l'expérimentation, juste appuyer sur le bouton bleu en bas à gauche.
- Les boutons verts en bas permettent d'afficher interactivement les différents éléments graphiques
►Outil d'aide à la décision
[TestHypo]: cet outil se concentre sur les différentes étapes permettant l'obtention de la p-valeur qui est LA notion centrale pour l'outil d'aide à la décision. Cet outil a tout d'abord été construit pour assister l'instructeur avec pour objectif de faire une première présentation de la notion de p-valeur (notamment grâce au mode "démo" placé à droite).
Le conseil d'utilisation pour un étudiant soucieux de maîtriser les enjeux d'une décision via une p-valeur est d'utiliser cet outil en même temps qu'une (re)lecture du cours permettant ainsi d'illustrer les notions du cours et les différents acteurs mis en jeu dans la construction des outils d'aide à la décision.
►Pratiquer le R (en ligne)
[WebRConsole] conçu notamment pour tester les exos de cours (sans avoir à installer le
R sur son ordinateur qui est cependant fortement conseillé)►Supports
►Support Cours Amphi
►Support de TD
- Présentation Problématique : TD 1
- Probabilités A.M.P vs A.E.P. : TD 2
- Estimation par Intervalle de Confiance : TD 3
- Outil d'aide à la décision : TD 4
- Exercices d'application : TDs 5 à 10
- 1 paramètre : (Exercice 20) (Exercice 22) (Exercice 23) (Exercice 28)
- cadre Gaussien : (Exercice 24)
- 2 paramètres : (Exercice 25) (Exercice 26) (Exercice 27) (Exercice 30) (Exercice 31) (Exercice 32) (Exercice 34) (Exercice 35)
►Support de Cours
- Identification au système de QCM avec le champ compte rempli avec statinf
IMPORTANT: Pour ceux qui ont un justificatif d'absence, une UNIQUE séance de rattrapage des quizzs aura lieu le MARDI 16 Avril de 15h à 17h en salle 002 du batiment Veil. Prière de contacter votre chargé de TD afin de justifier votre absence. Ce dernier nous donnera son autorisation pour votre participation au rattrapage.
Thémes des 4 QCMs (dans l'ordre)- Langages
- Rédaction standard exercice à 1 paramètre
- P-valeurs calculées avec WebR (exos à 1 et 2 paramètres)
- Intervalles de Confiances calculés avec WebR
- Mini Poly Cours pdf (autorisé aux CC et Exam), Poly Cours pdf
- En résumé
- (Ancienne) Fiche Td au format pdf: énoncé, corrigé
- Quizz: se tester (TODO: à intégrer dans le cours précédent).


