Cours Statistique Inférentielle

►Consignes de cours

►Prérequis

Notations Mathématiques : sommes (discrète $\Sigma$ et intégrale $\int$), racine carré, ...
Statistique descriptive (vu en L1) : moyenne, écart-type, quantile, histogramme

►Esprit du cours (en résumé)

Commençons par rappeler que ce cours a été spécifiquement construit pour un public d'étudiants dit "non matheux". Voilà quelques points spécifiques qui le caractérisent :

Cours de langue : Bizarrement, nous demandons aux étudiants de concevoir dans un premier temps ce cours plus comme un cours de langue plutôt qu'un cours basé sur des techniques mathématiques. Il est toutefois à noter que l'effort demandé n'est pas démesuré car le nombre de mots à apprendre sera très limité (entre 10 et 20 notations mathématiques à assimiler).
Pas (ou très peu) de techniques mathématiques : Dans un second temps, une fois les quelques mots de langage mathématique assimilés, nous pourrons plus facilement décrire et appréhender les concepts mathématiques (en fait, probabiliste et statistique) spécifique au cours dont les aspects techniques ne reposent que sur quelques concepts de base de la Statistique Descriptive (moyenne, quantile, écart-type, histogramme).
Représentations graphiques : Les aspects les plus techniques du cours seront toujours interprétables à partir de représentations graphiques. L'objectif du cours est clairement de comprendre les concepts de cours décrits à partir de ces représentations graphiques.

►Attitude (attendue) pour suivre le cours

Il est tout d'abord important de réaliser que les outils introduits dans ce cours sont dans la famille des cours quantitatifs les plus utiles dans de nombreux domaines applicatifs (économie, biologie, psychologie, ...).

Nous espérons alors qu'un étudiant (normalement curieux) saura se responsabiliser en consacrant un minimum de temps. Malgré le nombre limité d'heures allouées à ce cours, il est tout de même considéré qu'avec une attitute active en cours et TD, il est possible de maîtriser en fin d'année les outils introduits dans ce cours.
Toutefois, nous sommes conscients et nous en avertissons les étudiants que l'une des difficultés de ce cours est bien de suivre les consignes de cours. Il est notamment quasiment impossible de suivre ce cours de manière intermittente car sans investissements constants le risque est de se sentir complètement perdu et ainsi d'avoir une envie irrésistible d'abandonner les efforts.
Une attitude devenue courante pour un étudiant ces dernières années consiste à penser que ce cours n'est pas adapté à son niveau. Nous acceptons toutes les critiques en fin d'année de la part d'étudiants soucieux comme nous d'améliorer la démarche pédagogique de ce cours. Les étudiants ne peuvent pas le savoir mais ce cours se nourrit année après année d'interactions de la sorte.

►Position du problème

►Paramètre d'intérêt INCONNU

Quand on étudie des problématiques tels que :

les intentions de votes pour un candidat "Max" avant un 2ème tour d'élection
la rentabilité d'un produit A ou B avant de le lancer sur le marché

il émerge des quantités d'intérêt (proportion, moyenne, variance, ...), appelées dans ce cours, paramètres d'intérêt qui sont INCONNUS compte tenu de la trop grande taille de la population dont elles dépendent.

Mathématiquement, si $\boldsymbol{\mathcal{Y}^\bullet}=(\mathcal{Y}^\bullet_1,\cdots,\mathcal{Y}^\bullet_N)$ désigne la population ($\bullet$ devant être remplacé par un signe distinctif de la problématique : Max, A ou B), le paramètre d'intérêt est souvent la moyenne : $$ \mu^\bullet=\frac{\mathcal{Y}^\bullet_1+\cdots+\mathcal{Y}^\bullet_N}N=\frac1N\sum_{i=1}^N\mathcal{Y}^\bullet_i=:\overline{\mathcal{Y}^\bullet} $$ Attention : $\mu^\bullet$ ($\mu$ correspondant au "m" grec pour désigner une moyenne) désigne le nom du paramètre d'intérêt quand la "barre au dessus" dans $\overline{\mathcal{Y}^\bullet}$ désigne l'opérateur de moyenne. Notons aussi que dans le cas où la population ne contient que des 0 ou 1, la moyenne devient une proportion et il est alors préférable de la noter $p^\bullet=\mu^\bullet$.

►Echantillonnage

Une solution envisageable est alors de construire un échantillon (c-à-d, extraire une partie de la population) et de se contenter de n'avoir qu'un ordre de grandeur de la valeur du paramètre d'intérêt.

Dans le cadre du cours, on suppose ne pas connaître de caractéristiques relatives à la population autres que sa taille $N$.
Même si alors la notion de représentativité exacte est impossible pour un échantillon, il est souhaitable que l'échantillon ressemble le plus possible à la population (c-à-d, le plus représentatif possible).
La construction d'un échantillon par tirage aléatoire avec ou sans remise dans la population est la solution qui garantit que tous les individus de la population ont les mêmes chances d'être choisi dans l'échantillon. La représentativité maximale (sans a priori sur la population) est ainsi garantie.
Afin de simplifier les aspects techniques, nous choisissons de ne traiter que l'échantillonnage par tirages aléatoires avec remise. La simplicité découle du fait que tous les tirages sont dans ce cas une même expérience qui est alors répétée autant de fois que nécessaires.
Un unique échantillon est (en général) disponible dans une étude réelle. On l'appelle échantillon du jour J et on le note $\mathbf{y}^\bullet=(y_1,\cdots,y_n)$ avec $n$ espéré le plus grand possible bien qu'étant très petit par rapport à $N$.

►Estimation

A partir de l'échantillon $\mathbf{y}^\bullet$ remplaçant la population INCONNUE $\boldsymbol{\mathcal{Y}}^\bullet$, on peut proposer un "remplaçant" du paramètre d'intérêt (ainsi) INCONNU.
On l'appelle officiellement estimation du paramère d'intérêt.
Si on reprend l'exemple de la moyenne $\mu^\bullet$, on la note $\widehat{\mu^\bullet}(\mathbf{y^\bullet})$.
- Le "chapeau" placé sur le paramètre d'intérêt se dit "estimation de".
- En complément, la dépendance de cette estimation en l'échantillon se fait par l'utilisation des parenthèses (comme pour une fonction mathématique). De manière plus imagée, '$(\cdot)$' se dit "calculé à partir de".
$\widehat{\mu^\bullet}(\mathbf{y^\bullet})$ se traduit donc "estimation du paramètre d'intérêt calculée à partir de l'échantillon du jour J"

L'obtention de l'expression de $\widehat{\mu^\bullet}(\mathbf{y^\bullet})$ est intuitive : la moyenne de la population est naturellement remplacée par la moyenne de l'échantillon : $$\widehat{\mu^\bullet}(\mathbf{y^\bullet})=\overline{y^\bullet}:=\frac1n\sum_{i=1}^n y_i$$ Notons que cette intuition est possible car le rôle de la moyenne est de ramener à l'unité (en divisant la somme par l'effectif total) et donc de rendre comparable des moyennes de vecteurs (suite de nombres) de taille très différentes.

►Nature aléatoire de l'échantillonnage et Variable aléatoire d'intérêt

Afin de satisfaire au critère de représentativité maximale, la contruction de l'échantillon est (purement) aléatoire et ainsi l'estimation qui en dépend est aussi de nature aléatoire. Nous entrons ainsi dans le monde des probabilités.

Décrivons l'expérience aléatoire relative à une construction d'échantillon dans une population: cela consiste à faire un tirage aléatoire dans la population.
Une manière élégante de formaliser le problème est généralement d'introduire une variable qui décrit le résultat de l'expérience. Choisir un individu dans la population revient à choisir un entier entre 1 et $N$.
Soit $I$ un entier choisi au hasard dans $\{1,\cdots,N\}$, le résultat qui nous intéresse est donc $Y^\bullet=\mathcal{Y}^\bullet_I$.
$Y^\bullet$ est alors de nature aléatoire car l'indice $I$ l'est aussi. $Y^\bullet$ est appelée variable aléatoire d'intérêt.
Pour traduire la nature aléatoire de l'échantillon, nous regroupons les résultats des $n$ mêmes expériences aléatoires dans le vecteur aléatoire $\mathbf{Y}^\bullet=(Y^\bullet_1,\cdots,Y^\bullet_n)$ où $Y^\bullet_i$ est le résultat de la $i^{ème}$ répétition de $Y^\bullet$ que l'on appelle naturellement modèle. Nous n'insisterons pas ici sur la notion de modèle car dans notre cadre d'étude il se résume à une simple variable aléatoire. Il faut toutefois savoir que ce concept est central dans un cours plus avancé tel qu'un cours d'économétrie (voir en L3).
L'échantillon $\mathbf{y}^\bullet$ du jour J est donc une réalisation de $\mathbf{Y}^\bullet$ et l'estimation $\widehat{\mu^\bullet}(\mathbf{y}^\bullet)$ est donc une réalisation de $\widehat{\mu^\bullet}(\mathbf{Y}^\bullet)$ qui est donc une variable aléatoire dite échantillonnale car sa nature aléatoire ne résulte que de celle de l'échantillon $\mathbf{Y}^\bullet$.

Pour finir, sauriez-vous établir le lien entre le paramètre d'intérêt (qui dérive directement de la population) et la variable d'intérêt? La solution s'obtient via une Approche Mathématique des Probabilités (A.M.P.) : $=\mu^\bullet$ ? Compte tenu du relativement faible nombre d'heures à disposition dans ce cours, nous ne pouvons apprendre les techniques mathématiques de l'A.M.P. au risque de nous limiter sur un plan méthodologique. Nous est-il cependant possible de comprendre les résultats obtenus via l'A.M.P. et, par exemple, l'interprétation du résultat précédent ($=\mu^\bullet$)? Voici les principaux objectifs de ce cours :

de mettre l'accent sur le langage mathématique et non sur les techniques mathématiques
de proposer une Approche Expérimentale des Probabilités (A.E.P.), complémentaire à l'A.M.P., puisqu'elle vise à proposer un décodeur de l'A.M.P. afin de comprendre et utiliser les développements des matheux qui nous sont utiles
d'aller plus loin sur un plan méthodologique et ainsi traiter de nombreux exemples en s'appuyant sur un langage informatique R

Le meilleur conseil est donc d'appréhender 90% de ce cours comme un cours de langue où par chance le vocabulaire se limite à une vingtaine de mots.

►Approche Expérimentale des Probabilités (A.E.P.)

►Variable aléatoire d'intérêt $Y^\bullet$

►Position du problème

Dans un cours classique de Probabilités basé sur une Approche Mathématique des Probabilités (A.M.P.), l'objectif est généralement de déterminer (par le calcul) les Lois de Probabilités de variables aléatoires résultant d'un schéma expérimental. Les résultats obtenus s'expriment sous la forme: $$Y \leadsto \mathcal{L}(\cdots) \mbox{ ou } Y \mathop{\leadsto}_{Approx.} \mathcal{L}(\cdots)$$ où $\mathcal{L}(\cdots)$ est une loi de probabilité connue des mathématiciens. Par exemple, on peut déjà connaitre :

loi uniforme $\mathcal{U}(E)$ sur un ensemble $E$ ($E=\{1,\cdots,6\}$ correspondant à un lancer de dé), loi binomiale $\mathcal{B}(n, p)$, ....
les lois continues usuelles en Statistique Inférentielle (voir fin du poly de cours )

Dans ce cours, nous ne disposons pas des heures nécessaires (par une réduction des volumes horaires au cours des années) pour à la fois apprendre

les techniques de calcul de l'A.M.P. (la fiche de TD 2 étant le seul endroit où on en fera un peu)
ainsi que les Outils usuels de Statistique Inférentielle (évoqué à la fiche TD 1 introductive servant de "Menu du cours") .

L'accent est alors mis pour introfuire une Approche Expérimentale des Probabilités (A.E.P.) qui complètera l'A.M.P. en nous permettant de comprendre et décoder les résultats obtenus via l'A.M.P. et notamment ceux utiles à la construction des Outils de Statistique Inférentielle.

►Introduction à l'A.E.P.

Comme son nom l'indique, l'A.E.P. repose sur l'expérimentation. La démarche consiste alors à répéter $m$ (plutôt très grand) fois l'expérience aléatoire et à étudier les différentes réalisations de la variable aléatoire d'intérêt en utilisant principalement les outils de la Statistique Descriptive (vue en L1).

Notons $y^\bullet_{[1]},y^\bullet_{[2]},\cdots,y^\bullet_{[m]}$ ces $m$ réalisations expérimentales. Le signe distinctif introduit spécialement dans ce cours basée sur l'A.E.P. est le "$_{[k]}$" ($k \in \{1,\cdots, m\}$) en indice qui désigne alors le résultat $y^\bullet_{[k]}$ de $Y^\bullet$ pour la $k^{ème}$ expérience.
Combien d'expériences faut-il faire pour connaître exactement la variabilité de $Y^\bullet$ ? Réponse : le plus grand nombre de fois possible $m=+\infty$. Sur un plan expérimental, on peut prétendre dire que :
- lorsque $m$ est très grand, $\widehat{\Omega}_{Y^\bullet,m}=\left(y^\bullet_{[\cdot]}\right)_{m}:=\left(y^\bullet_{[1]},\cdots,y^\bullet_{[m]}\right)$ représentent "presque tous les résultats possibles de $Y^\bullet$"
- $\widehat{\Omega}_{Y^\bullet}:=\widehat{\Omega}_{Y^\bullet,\infty}=\left(y^\bullet_{[\cdot]}\right)_{\infty}:=\left(y^\bullet_{[1]},\cdots,y^\bullet_{[m]},\cdots\right)$ représentent "tous les résultats possibles de $Y^\bullet$"

►Lien avec l'A.M.P. (Approche Mathématique des Probabilités)

Enonçons quelques éléments de décodage entre A.M.P. et A.E.P. (consistant à appliquer tout simplement les simples opérations que l'on applique généralement dans un cours de Statistique Descriptive de L1) :
- moyenne : $\color{brown}{\mathbb{E}\left(Y^\bullet\right)}=\color{darkcyan}{\overline{\left({y^\bullet_{[\cdot]}}\right)}_{\infty}\simeq \overline{\left({y^\bullet_{[\cdot]}}\right)}_{m}}:=\displaystyle \frac1m \sum_{k=1}^m y^\bullet_{[k]}$
- proportion (ou fréquence) : $\color{brown}{\mathbb{P}\left(Y^\bullet\in E\right)}=\color{darkcyan}{\overline{\left({y^\bullet}_{[\cdot]}\in E\right) }_{\infty}\simeq \overline{\left({y^\bullet}_{[\cdot]}\in E\right) }_{m}}:=\displaystyle \frac1m \sum_{k=1}^m \left(y^\bullet_{[k]}\in E\right)$ avec l'ensemble E de la forme $E=\left[a,b\right[$ ou $E=\{a\}$ ($a$ et $b$ étant des réels quelconques).
- écart-type : $\color{brown}{\sigma\left(Y^\bullet\right)}=\color{darkcyan}{\overleftrightarrow{\left({y^\bullet_{[\cdot]}}\right)}_{\infty}\simeq \overleftrightarrow{\left({y^\bullet_{[\cdot]}}\right)}_{m}}:=\displaystyle \sqrt{\frac1m \sum_{k=1}^m \left(y^\bullet_{[k]} - \overline{\left({y^\bullet_{[\cdot]}}\right)}_{m}\right)^2}$
- quantile (d'ordre $\alpha$) : $\color{brown}{q_{\alpha}\left(Y^\bullet\right)}=\color{darkcyan}{q_{\alpha}{\left({y^\bullet_{[\cdot]}}\right)}_{\infty}\simeq q_{\alpha}{\left({y^\bullet_{[\cdot]}}\right)}_{m}}$
L'un des intérêts de l'A.E.P. est (à la différence de l'A.M.P.) qu'il est possible de traiter une variable aléatoire de la même façon qu'elle soit discrète ou continue. Grâce à l'A.E.P., nous pouvons interpréter ${\mathbf{ E }}=\mu^\bullet$ (issu de l'A.M.P.) en disant que "la moyenne de tous les résultats expérimentaux de $Y^\bullet$ est égale au paramètre d'intérêt $\mu^\bullet$".

►Représentation graphique A.E.P. comme le décodeur de l'A.M.P.

Pour représenter graphiquement les résultats expérimentaux $\widehat{\Omega}_{Y^\bullet,m}=\left(y^\bullet_{[1]},\cdots,y^\bullet_{[m]}\right)$ on va construire un $[m]$-mur officiellement appelé $[m]$-histogramme (discret ou continu selon la nature de la variable aléatoire d'intérêt) en suivant les règles suivantes :

les "presque" tous $m$ (avec $m$ très grand) résultats expérimentaux $\widehat{\Omega}_{Y^\bullet,m}$ sont représentés par des $[m]$-briques de même forme, de même surface $\frac1m$ (c-à-d, surface totale du $[m]$-mur égale à $1=100\%$)
les largeurs des $[m]$-briques sont
- pour variable aléatoire d'intérêt discrète : fixes et indépendantes de $m$ (idéalement le $[m]$-mur sera comme le ferait un maçon le plus compact possible ce qui fixe de manière unique la largeur des briques de sorte à juxtaposer les briques en laissant le moins possible de "trou"/"vide")
- pour variable aléatoire d'intérêt continue : $[m]$-briques de moins en moins larges lorsque le nombre d'expériences $m$ augmente.

On va donc se proposer de traiter deux exemples les plus simple:

$Y=$"face d'une dé" se comportant comme une loi uniforme sur $\{1,\cdots,6\}$
$Y=$"réel au hasard dans $\left[0,1\right]$" se comportant comme une loi uniforme sur $\left[0,1\right]$.

Notre objectif sera d'intuiter/anticiper la répartition de tous les résultats expérimentaux $\widehat{\Omega}_{Y^\bullet,\infty}$.

Les questions à se poser :

Enjeu principal de l'A.E.P.: pensez-vous qu'il soit possible de visualiser simultanément tous les résultats expérimentaux $\widehat{\Omega}_{Y^\bullet,\infty}$ ?
Quelles sont les formes des $[\infty]$-briques dans les cas de variables d'intérêt discrète et continue ?
Que représente l'$[\infty]$-mur (ou $[\infty]$-histogramme) représentant l'empilement de toutes les $[\infty]$-briques ?
Si on vous donne la forme d'un $[\infty]$-histogramme, comment feriez-vous pour choisir une nouvelle réalisation de la variable aléatoire d'intérêt $Y^\bullet$ ?

Testez-vous avec Quiz sans WebR (ou Quizz avec WebR)

►Variable aléatoire clonée $Y^{c,\bullet}$

Intuitivement, sauriez-vous anticiper l'$[\infty]$-histogramme associé à la variable aléatoire $Y^{c,\bullet}$ consistant à choisir au hasard une $[\infty]$-brique parmi celles de l'$[\infty]$-histogramme associé à la variable aléatoire d'intérêt $Y^\bullet$ ?
Peut-on dire que $Y^\bullet$ et $Y^{c,\bullet}$ ont la même loi de probabilité ?
Lorsqu'un mathématicien a réussi par un calcul à identifier de manière explicite la forme du $[\infty]$-histogramme, il lui donne un nom de loi et écrit : $Y^\bullet \leadsto \mathcal{L}_0$.
- Par exemple, pour l'expérience du dé, $Y^\bullet\leadsto \mathcal{U}(\{1,2,3,4,5,6\})$ (qui se lit "loi uniforme" sur l'ensemble des 6 faces).
- Si l'on veut prendre un exemple de variable d'intérêt continue, on peut considérer l'exemple du choix au hasard d'un réel compris entre 0 et 1. Dans ce cas, $Y^\bullet\leadsto \mathcal{U}([0,1])$.
Dans le cas de variable aléatoire continue,
l'$[\infty]$-histogramme de l'A.E.P. correspond à la densité de probabilité définie dans l'A.M.P..

Poursuivons notre expérimentation en découvrant les répartitions ou loi de probabilité de :

La moyenne de 2 lancers de dés
La moyenne de 2 réels au hasard dans $\left[0,1\right]$

►Protocole expérimental

récolte des $m$ résultats expérimentaux : $y^\bullet_{[1]},\cdots,y^\bullet_{[m]}$

R> ## On lance un dé m=10000 fois
R> m<-10000
R> y <- sample(1:6,m,replace=TRUE)
R> y
    [1] 2 1 2 3 3 5 5 1 2 3 1 3 2 3 2 4 1 1 6 5 5 6 4 1 4 5 1 5 3 2 4 2 2 6 1 4
   [37] 4 6 2 2 4 1 1 1 4 2 6 1 6 2 6 3 1 5 4 6 5 4 4 2 1 4 6 1 4 4 2 3 5 3 3 5
...
 [9937] 5 3 4 4 4 2 4 1 1 2 5 6 3 5 4 4 2 6 6 3 5 6 3 4 4 4 6 5 4 3 2 5 6 4 3 4
 [9973] 3 4 4 2 1 5 6 5 6 3 1 3 2 2 4 2 6 3 3 3 4 1 6 1 5 4 2 1

tri par ordre croissant

R> sort(y)
    [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
   [37] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
...
 [9937] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 [9973] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6

quelques résumés

R> mean(y)
[1] 3.4998
R> sd(y)
[1] 1.713445
R> summary(y)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    1.0     2.0     4.0     3.5     5.0     6.0

table des répartitions

R> ## table des fréquences en pourcentages
R> table(y)/m*100
y
    1     2     3     4     5     6 
17.03 16.48 16.15 16.69 17.12 16.53 
R> ## les proportions
R> mean(y==1)*100
[1] 17.03
R> mean(y==2)*100
[1] 16.48
R> mean(y==6)*100
[1] 16.53

►Variable aléatoire échantillonnale

►Expérience aléatoire consistant à constuire un échantillon

Comme l'objectif de ce cours est d'aider à appréhender les outils usuels de Statistique Inférentielle, nous allons nous concentrer sur l'expérimentation qui nous a amené à considérer l'aléatoire. En effet, pour espérer avoir les meilleures estimations du paramètres d'intérêt (INCONNU), il est requis de satisfaire au critère de représentativité maximale obtenue via la construction d'échantillon avec remise dans la population.

►Schéma expérimental A.E.P. (décodeur de A.M.P.)

Voici le Schéma expérimental de l'A.E.P. en tant que décodeur de l'A.M.P. où à la fois les variables d'intérêt et échantillonnales y sont décrites.

Précisons quelques notations utilisées dans le schéma ci-dessous:

$\theta$ désigne un paramètre (généralement, une moyenne dans ce cours) quand $\theta^\bullet$ désigne le paramètre INCONNU
$\widehat\theta(\cdot)$ désigne une estimation du paramètre $\theta$ calculée à partir de données "$\cdot$"
$t(\cdot)$ désigne une statistique ( éventuellement de test) dépendant de données "$\cdot$"
les données sont selon où on se place dans le temps
- données réelles: ${\mathbf{ y }}$ récoltées le jour J et associées au présent (en tant que temps de conjugaison)
- données aléatoires: ${\mathbf{ Y }}$ pas encore récoltées puisqu'avant le jour J et donc associées au futur (en tant que temps de conjugaison)
- données possibles ou virtuelles: $\left({\mathbf{ y }}_{[k]}\right)_{k=1,\cdots,+\infty}$ correspondant à toutes les données possibles pour ${\mathbf{ Y }}$, dont ${\mathbf{ y }}$ fait partie, et donc associées au conditionnel (en tant que temps de conjugaison)

Avant le jour J
($\theta$ fixé à $\theta^\bullet$ INCONNU* ou éventuellement à toute valeur arbitraire pour l'expérimentation)*
Mathématique	${\mathbf{ Y }}$	$Y$	$\widehat{\theta}({\mathbf{ Y }})$ ou $\widehat\Theta$	$t({\mathbf{ Y }})$ ou $T$
	${\mathbf{ y }}_{[1]}$	$\left\{ \begin{array}{c} y_{[1]}\\ \vdots \\ y_{[n]} \end{array} \right.$	$\widehat{\theta}({\mathbf{ y }}_{[1]})$ ou $\widehat\theta_{[1]}$	$t( {\mathbf{ y }}_{[1]})$ ou $t_{[1]}$
Expérimental	${\mathbf{ y }}_{[2]}$	$\left\{ \begin{array}{c} y_{[n+1]}\\ \vdots \\ y_{[2n]} \end{array} \right.$	$\widehat{\theta}({\mathbf{ y }}_{[2]})$ ou $\widehat\theta_{[2]}$	$t( {\mathbf{ y }}_{[2]})$ ou $t_{[2]}$
	$\vdots$	$\vdots$	$\vdots$	$\vdots$
	${\mathbf{ y }}_{[m]}$	$\left\{ \begin{array}{c} y_{[(m-1)\times n+1]}\\ \vdots \\ y_{[m\times n]} \end{array} \right.$	$\widehat{\theta}({\mathbf{ y }}_{[m]})$ ou $\widehat\theta_{[m]}$	$t( {\mathbf{ y }}_{[m]})$ ou $t_{[m]}$
	$\vdots$	$\vdots$	$\vdots$	$\vdots$
Moyenne =		$\mu:=\overline{\left({ y_{[\cdot]}}\right)}_{ \infty}=\mathbb{E}\left( Y \right)$	$\overline{\left({ \widehat{ \theta }\left({\mathbf{ { y_{[\cdot]} } }}\right)}\right)}_{ \infty}=\mathbb{E}\left( \widehat{ \theta }\left({\mathbf{ { Y } }}\right) \right)$	$\overline{\left({ t({\mathbf{ y }}_{[\cdot]})}\right)}_{ \infty}=\mathbb{E}\left( t({\mathbf{ Y }}) \right)$
Ecart-Type =		$\begin{aligned} \sigma & := {\overleftrightarrow{\left({ y_{[\cdot]}}\right)}_{ \infty}} \\ & = \sigma(Y) \\ & = \sqrt{\mathbb{V}ar\left( Y \right)} \end{aligned}$	$\begin{aligned} \sigma_{\widehat{\theta}}&:= {\overleftrightarrow{\left({ \widehat{ \theta }\left({\mathbf{ { y_{[\cdot]} } }}\right)}\right)}_{ \infty}} \\ &= \sigma(\widehat{ \theta }\left({\mathbf{ { Y } }}\right))\\ &=\sqrt{\mathbb{V}ar\left( \widehat{ \theta }\left({\mathbf{ { Y } }}\right) \right)} \end{aligned}$	$\begin{aligned} {\overleftrightarrow{\left({ t({\mathbf{ y }}_{[\cdot]})}\right)}_{ \infty}}&=\sigma(t({\mathbf{ Y }})) \\ &=\sqrt{\mathbb{V}ar\left( t({\mathbf{ Y }}) \right)} \end{aligned}$
Proportion dans $[a,b[$ =		$\begin{aligned} \overline{\left({ y_{[\cdot]}\in [a,b[}\right)}_{ \infty}\\ =\mathbb{P}(Y\in[a,b[) \end{aligned}$	$\begin{aligned} \overline{\left({ \widehat{ \theta }\left({\mathbf{ { y_{[\cdot]} } }}\right)\in [a,b[}\right)}_{ \infty}\\ =\mathbb{P}(\widehat{ \theta }\left({\mathbf{ { Y } }}\right)\in[a,b[) \end{aligned}$	$\begin{aligned} \overline{\left({ t({\mathbf{ y }}_{[\cdot]})\in [a,b[}\right)}_{ \infty}\\ =\mathbb{P}(t({\mathbf{ Y }})\in[a,b[) \end{aligned}$
Histogramme à pas "zéro" =		$f_Y$	$f_{\widehat{ \theta }\left({\mathbf{ { Y } }}\right)}$ ou $f_{\widehat\Theta}$	$f_{t({\mathbf{ Y }})}$ ou $f_T$
Surface brique ($m$ fini) =		$\frac1{mn}$	$\frac1m$	$\frac1m$
Après le jour J
($\theta$ est égal à $\theta^\bullet$ toujours INCONNU)
Pratique	${\mathbf{ y }}$	$\left\{ \begin{array}{c} y_{1}\\ \vdots \\ y_{n} \end{array} \right.$	$\widehat{\theta}({\mathbf{ y }})$ ou $\widehat\theta$	$t({\mathbf{ y }})$ ou $t$

►Répartition universelle de la Moyenne échantillonnale $\overline{Y^\bullet}$

Lorsque $n$ devient de plus en plus grand, la forme de l'$[\infty]$-mur de toutes les estimations $\widehat{\Omega}_{\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}$ ne change approximativement pas et ce indépendamment de la répartition de la variable d'intérêt $Y^\bullet$.

Utilisons l'application "fourchette" pour observer successivement la répartition de la moyenne de $n=30$ (en fait $n=20$ suffisent) pour l'expérience du dé puis celle du réel au hasard compris entre $\left[0,1\right]$

Loi de proba de $\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)$ : lorsque $n$ grand ($n \geq 30$), $$\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right):=\overline{Y^\bullet}\mathop{\leadsto}_{approx.} \mathcal{N}({\color{red}\mu^\bullet}, {\color{red}\sigma_{\widehat\mu^\bullet}})$$ où, d'après le schéma expérimental A.E.P., ${\color{red}\sigma_{\widehat\mu^\bullet}}:={\overleftrightarrow{\left({ \widehat{ \mu^\bullet }\left({\mathbf{ { y_{[\cdot]} } }}\right)}\right)}_{ \infty}} = \sigma(\widehat{ \mu^\bullet }\left({\mathbf{ { Y } }}\right))$.
Lorsque la taille $n$ est de plus en plus grande, ${\color{red}\sigma_{\widehat\mu^\bullet}}$ est de plsu en plus proche de $0$ conduisant à un $[\infty]-$mur de plus en plus "fin" (i.e., de moins en moins dispersé autour de $\mu^\bullet$). Une façon de faire pour ne préter attention qu'à la forme du $[\infty]$-mur est de le standardiser (le déplacer en 0 puis en changeant l'échelle des abscisses). Intéressons nous alors au $[\infty]$-mur d'écarts standardisés (une première version non officielle) entre estimations et paramètre d'intérêt $$\frac{\color{blue}{\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}-\color{red}{\mu^\bullet}}{\color{red}{\sigma_{\widehat\mu^\bullet}}} \mathop{\leadsto}_{Approx.} \mathcal{N}({\color{blue}0},{\color{blue}1}) $$
Ce résultat ne nous est pas très utile en l'état car il dépend de ${\color{red}\sigma_{\widehat\mu^\bullet}}$ inconnu. Grâce à l'A.M.P. on peut conserver le résultat ci-dessus en remplaçant ${\color{red}\sigma_{\widehat\mu^\bullet}}$ inconnu par sa future estimation (que l'on développera plus tard, voir cadre ci-dessous pour le développement A.M.P.). En effet, lorsque $n$ est assez grand, les écarts standardisés (officiels) entre estimations et paramètre d'intérêt $$\delta_{\widehat\mu^\bullet,\mu^\bullet}(\boldsymbol Y^\bullet):=\frac{\color{blue}{\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}-\color{red}{\mu^\bullet}}{\color{blue}{\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol Y^\bullet\right)}} \mathop{\leadsto}_{Approx.} \mathcal{N}({\color{blue}0},{\color{blue}1}) $$ Par l'A.E.P., on peut donc dire que le $[\infty]$-mur des écarts standardisés $\left(\delta_{\widehat\mu^\bullet,\mu^\bullet}\left(\boldsymbol y_{[\cdot]}\right)\right)_\infty:= \left(\frac{\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet}_{[\cdot]}\right)-\mu^\bullet}{\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol{y^\bullet}_{[\cdot]}\right)}\right)_\infty$ a une forme CONNUE et ressemble approximativement à celui d'une loi normale centrée réduite.

En appliquant les techniques de base sur les variances de variables aléatoires, on obtient: $${\color{red}\sigma^2_{\widehat\mu^\bullet}} := \sigma^2\left(\widehat{\mu^\bullet}({\mathbf{ Y^\bullet }})\right) = \mathbb{V}ar\left( \overline{Y^\bullet} \right) = \frac1{n^2}\sum_{i=1}^n \mathbb{V}ar\left( Y_i^\bullet \right) = \frac1{n^2} (n \times \mathbb{V}ar\left( Y^\bullet \right)) = \frac{\sigma^2_\bullet}n$$
Par passage à la racine carrée et en notant $\color{blue}\widehat{\sigma_\bullet}({\mathbf{ Y^\bullet }})$ la future estimation de $\color{red}\sigma_\bullet := \sigma_{Y^\bullet}$, on déduit directement une expression explicite de la future estimation de $\color{red}\sigma_{\widehat\mu^\bullet}$: $${\color{blue}\widehat{ \sigma_{\widehat\mu^\bullet} }\left({\mathbf{ { Y^\bullet } }}\right)} := \frac{\color{blue}\widehat{ \sigma_\bullet }\left({\mathbf{ { Y^\bullet } }}\right)}{\color{blue}\sqrt{n}}$$ où ${\color{blue}\widehat{ \sigma_\bullet }\left({\mathbf{ { Y^\bullet } }}\right)}$ sera défini ultérieurement dans ce Cours quand on introduira la qualité d'estimation.

►Estimation, Qualité d'estimation et Intervalle de Confiance

►Estimation de moyenne

Estimation de moyenne $\mu^\bullet$ :
1. le jour J : $\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet}\right)$ (présent),
2. avant le jour J : $\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)$ (futur)
3. les possibles du jour J : $\left(\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet_{[\cdot]}}\right)\right)_\infty$ (conditionnel)
Répartition en $[\infty]$-mur de toutes les estimations $\left(\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet_{[\cdot]}}\right)\right)_\infty$ (loi de proba de $\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)$)

►Qualités d'estimation

si on veut espérér disposer le jour J d'une estimation la plus précise possible, il vaudrait mieux la choisir (au hasard) dans un $[\infty]$-mur le plus concentré possible autour de $\mu^\bullet$. Bonnes nouvelles, on a :

Estimation sans biais: le biais d'estimation mesuré par l'écart entre le paramètre d'intérêt $\mu^\bullet$ et la moyenne $\overline{\left(\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet_{[\cdot]}}\right)\right)}_\infty$ de toutes les estimations $\widehat{\Omega}_{\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}:=\left(\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet_{[\cdot]}}\right)\right)_\infty$ est nul, c-à-d, l'$[\infty]$-mur des $\widehat{\Omega}_{\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}$ est centré en $\mu^\bullet$
Convergence de l'estimation: quand la taille d'échantillon $n$ est d'autant plus grande ($n\rightarrow \infty$), la qualité d'estimation $\displaystyle \sigma_{\widehat{\mu}^\bullet}:=\overleftrightarrow{\left(\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet_{[\cdot]}}\right)\right)}_\infty$ mesurant la dispersion des $\widehat{\Omega}_{\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}:=\left(\widehat{\mu^\bullet}\left(\boldsymbol{y^\bullet_{[\cdot]}}\right)\right)_\infty$ est d'autant plus proche de 0, c-à-d l'$[\infty]$-mur des $\widehat{\Omega}_{\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}$ est d'autant plus concentré autour du paramètre d'intérêt $\mu_{Y^\bullet}$.

Toutefois, la qualité d'estimation est elle-même (comme le paramètre d'intérêt) un paramètre INCONNU. Fort heureusement, l'A.M.P. établit très simplement (ici mais c'est en général le travail des matheux) une expression de la qualité en fonction de paramètres que l'on sait estimer $$\color{red}{\sigma_{\widehat\mu^\bullet}}:=\frac{\color{red}{\sigma_\bullet}}{\sqrt{n}} \color{black}{\Longrightarrow} \color{blue}{\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol y^\bullet\right)}:=\frac{\color{blue}{\widehat{\sigma_\bullet}\left(\boldsymbol y^\bullet\right)}}{\sqrt{n}} $$ L'estimation de la qualité a une place aussi importante que l'estimation du paramètre d'intérêt. Pour cette raison, un nom doit lui être donné et $\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol y^\bullet\right)$ est connu sous le nom d'erreur standard de l'estimation.
En résumé, le jour J, à partir de l'échantillon $\boldsymbol y^\bullet$, on calcule à la fois l'estimation $\widehat{\mu^\bullet}(\boldsymbol y^\bullet)$ et son erreur standard $\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol y^\bullet\right)$.

Dans le cas particulier de l'estimation de variance, pour obtenir la première qualité ci-dessus à savoir estimation sans biais, il est nécessaire de choisir comme estimation: $$\widehat{\sigma_{\bullet}}^2\left(\boldsymbol{y^\bullet}\right) :=\frac1{n-1}\sum_{i=1}^n \left(y^\bullet - \overline{y^\bullet}\right)^2 \Longleftrightarrow \widehat{\sigma_{\bullet}}\left(\boldsymbol{y^\bullet}\right) := \sqrt{\frac1{n-1}\sum_{i=1}^n \left(y^\bullet - \overline{y^\bullet}\right)^2}$$

A partir du moment où on a découvert à la fois

Théorème TCL
Erreur Standard

on peut considérer devenir un Expert en Statistique (Inférentielle).

►Estimation par intervalle de confiance

►Introduction

Quelle confiance accordez-vous à deux estimations obtenues à partir de 2 echantillons de tailles respectives $n=5$ et $n=1000$ ?
Plus généralement, quelle confiance doit-on accorder à une estimation $\widehat{\mu^\bullet}\left(\boldsymbol y^\bullet\right)$ le jour J selon son erreur standard $\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol y^\bullet\right)$ plus ou moins grande.
Interprétation des résultats d'un sondage avant le premier tour des élections présidentielles 2002 : votre attitude aurait-elle été influencée si à la place d'une estimation $\widehat{p^J}\left(\boldsymbol y\right)$ (autour de $17\%$) pour le candidat Jospin, on vous avait fourni une "fourchette" $[14.67\%,19.33\%]$. Il paraît que cette information ne nous est pas fourni car les Français ne sauraient pas interpréter ce type de résultats. Qu'en pensez-vous ?

►Construction via l'A.M.P.

Rappelons tout d'abord la dernière forme du TCL vue dans la partie Répartition universelle de la Moyenne échantillonale.
Lorsque $n$ est assez grand, les écarts standardisés entre estimations et paramètre d'intérêt (INCONNU) se répartissent comme: $$\delta_{\widehat\mu^\bullet,\mu^\bullet}(\boldsymbol Y^\bullet):=\frac{\color{blue}{\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}-\color{red}{\mu^\bullet}}{\color{blue}{\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol Y^\bullet\right)}} \mathop{\leadsto}_{Approx.} \mathcal{N}({\color{blue}0},{\color{blue}1}) $$
TCL dans le cadre de l'estimation de moyenne
Notons au passage que depuis que l'on est devenu Expert en Statistique, nous savons que la future estimation ${\color{blue}\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol Y^\bullet\right)}$ est depuis nommée (future) erreur standard et représente la (future) estimation de la qualité d'estimation ${\color{red}\sigma_{\widehat{\mu^\bullet}}}$.
Ainsi, littéralement: $$ \mathbf{\mbox{Ecart standardisé}} := \frac{ {\color{blue}\mbox{estimation}}\mbox{ (du paramètre d'intérêt)} - {\color{red}\mbox{paramètre d'intérêt}}}{\color{blue}\mbox{erreur standard}}$$
Graphiquement, en décodant ce résultat par l'A.E.P., on peut dire que l'$[\infty]$-mur de l'ensemble des $[\infty]$-briques associées à tous les écarts standardisés $\widehat{\Omega}_{\delta_{\widehat{\mu^\bullet},\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}:=\left(\delta_{\widehat\mu^\bullet,\mu^\bullet}\left(\boldsymbol y_{[\cdot]}\right)\right)_\infty$ est représenté par la courbe ci-dessous:
Expert en Statistique (suite)
En termes d'information, les 3 ingrédients suivants:
1. l'estimation (du paramètre d'intérêt) (calculable à partir de l'échantillon ${\mathbf{ y^\bullet }}$ du Jour J) qui est vu comme l'Acteur Principal du Cours
2. l'erreur standard (i.e. l'estimation de la qualité d'estimation du paramètre d'intérêt) (calculable à partir de l'échantillon ${\mathbf{ y^\bullet }}$ du Jour J) qui est vu comme l'Acteur Second Rôle du Cours
3. Théorème TCL qui exprime le comportement aléatoire des écarts standardisés liant: l'estimation (Acteur Principal), paramètre d'intérêt et l'erreur standard (Acteur second Rôle), comme vu ci-dessus.
sont à la base de l'outil d'estimation introduit ci-dessous.
Comme l'objectif d'un intervalle à $1-\alpha=95\%$ de confiance est d'écarter une proportion raisonnable d'échantillons $\alpha=5\%$ qui sont les moins fiables, gardons alors uniquement les $1-\alpha=95\%$ échantillons dont on a le plus confiance, c-à-d les échantillons dont les écarts standardisés sont entre les 2 barres qui sont placés environ en -2 et 2 :
En ne sélectionnant que ces $1-\alpha$ échantillons, on peut alors dire que : $$ 1-\alpha\simeq\mathbb P\left(-{\color{blue}\delta^+_{lim,\frac{\alpha}2}}\leq \delta_{\widehat{\mu^\bullet},\mu^\bullet}(\boldsymbol Y^\bullet) \leq{\color{blue}\delta^+_{lim,\frac{\alpha}2}}\right)\text{ avec }{\color{blue}\delta^+_{lim,\frac{\alpha}2}}\left\{\begin{array}{l}=q_{1-\frac\alpha2}(\mathcal{N}(0,1))\\ \simeq {\color{purple}1.96} \text{ si }{\color{purple}\alpha=5\%}\end{array}\right. $$ $$ 1-\alpha\simeq\mathbb P\left(-{\color{blue}\delta^+_{lim,\frac{\alpha}2}} \leq \frac{\color{blue}{\widehat{\mu^\bullet}\left(Y^\bullet\right)}-\color{red}{\mu^\bullet}}{\color{blue}{\widehat{\sigma_{\widehat{\mu^\bullet}}}\left(Y\right)}} \leq{\color{blue}\delta^+_{lim,\frac{\alpha}2}}\right) $$ $$ 1-\alpha\simeq \mathbb P \left( \underbrace{\color{blue}{\widehat{\mu^\bullet}\left(Y^\bullet\right)}\!-\!\color{blue}{\delta^+_{lim,\frac{\alpha}2}} \!\times\! \color{blue}{\widehat{\sigma_{\widehat{\mu^\bullet}}}\left(Y^\bullet\right)}}_{\color{purple}{\widetilde{\mu^\bullet}_{\inf}\left(Y^\bullet\right)}} \!\leq\!{\color{red}{\mu^\bullet}}\!\leq\! \underbrace{\color{blue}{\widehat{\mu^\bullet}\left(Y^\bullet\right)}\!+\!\color{blue}{\delta^+_{lim,\frac{\alpha}2}}\times \color{blue}{\widehat{\sigma_{\widehat{\mu^\bullet}}}\left(Y^\bullet\right)}}_{\color{purple}{\widetilde{\mu^\bullet}_{\sup}\left(Y^\bullet\right)}} \right) $$
En résumé,
- On peut dire que dans le cas où $n$ assez grand (ici, $n\geq 30$, appelé cadre asymptotique (qui rime avec cadre sympathique), on a : l'intervalle à $95\%$ de confiance $IC_{\mu^\bullet,95\%}\left(\boldsymbol y^\bullet\right)=[\widetilde{\mu^\bullet}_{\inf}\left(y^\bullet\right),\widetilde{\mu^\bullet}_{\sup}\left(y^\bullet\right)]$ du jour J est l'intervalle centrée en l'estimation $\widehat{\mu^\bullet}\left(y^\bullet\right)$ moins ou plus 2 fois l'erreur standard $\widehat{\sigma_{\widehat{\mu^\bullet}}}\left(y^\bullet\right)$
- En R, on calcule très simplement un intervalle de confiance grâce à un package asympTest (package R développé par vos serviteurs pour ce Cours et issu de ce Cours, c'est un package officiel du langage R) $$ IC_{\mu^\bullet,95\%}\left(\boldsymbol y^\bullet\right)\mathop{=}^{R} \mathtt{mean(yy) + c(-1,1)* qnorm(0.975) * seMean(yy)} $$ avec $\mathtt{yy}$ désignant l'échantillon de jour J stoké en R.

►Interprétation via l'A.E.P.

Appliquer la formule d'obtention de l'Intervalle de Confiance ci-dessus le jour J est équivalent à choisir au hasard une $[\infty]$-brique parmi toutes les $[\infty]$-briques associées à tous les écarts standardisés réparties selon une loi normale centrée réduite
- quand on tombe sur les $95\%$ (approximativement) les plus proches de 0, notre formule nous donne un bon intervalle de confiance dans le sens où il contient le paramètre d'intérêt INCONNU $\mu^\bullet$
- sinon, quand on tombe sur les autres $5\%$, on obtient un mauvais intervalle de confiance ne contenant pas le paramètre d'intérêt INCONNU $\mu^\bullet$
Application avec l'application "Fourchette"
En résumé,
le jour J, l'intervalle à $95\%$ confiance $IC_{\mu^\bullet,95\%}\left(\boldsymbol y^\bullet\right)=[\widetilde{\mu^\bullet}_{\inf}\left(y^\bullet\right),\widetilde{\mu^\bullet}_{\sup}\left(y^\bullet\right)]$ est l'un parmi tous ceux $\left(IC_{\mu^\bullet,95\%}\left(\boldsymbol y^\bullet_{[\cdot]}\right)\right)_\infty$ (que l'on aurait pu avoir) dont (approximativement) $95\%$ sont des bons intervalles de confiance qui contiennent le paramètre d'intérêt INCONNU $\mu^\bullet$.

Pour se tester, donner les valeurs des proportions ou probabilités suivantes (à ne pas confondre) :

$\overline{\left(\mu^\bullet \in IC_{\mu^\bullet,1-\alpha}\left(\boldsymbol y^\bullet_{[\cdot]}\right)\right)_{\infty}}$
$\mathbb P\left(\mu^\bullet \in IC_{\mu^\bullet,1-\alpha}\left(\boldsymbol y^\bullet\right)\right)$
$\mathbb P\left(\mu^\bullet \in IC_{\mu^\bullet,1-\alpha}\left(\boldsymbol y^\bullet_{[k]}\right)\right)$
$\mathbb P\left(\mu^\bullet \in IC_{\mu^\bullet,1-\alpha}\left(\boldsymbol Y^\bullet\right)\right)$

►Tests d'hypothèses comme Outils d'aide à la décision

►Introduction

En complément de l'outil d'estimation d'un paramètre d'intérêt par intervalle de confiance, on va s'intéresser à un deuxième outil de base autour de l'aide à la décision, à savoir le test d'hypothèses. Avec une pointe d'humour, on peut dire que ces deux outils sont les "fourchette" et "couteau" de la Statistique Inférentielle.
Appli Internet : Afin d'avoir une compréhension plus active, il est fortement conseillé de parcourrir les étapes du cours suivantes en jouant avec l'appli internet (qui s'ouvre dans un nouvel onglet de votre navigateur). Les consignes d'utilisation seront fournies au fur et à mesure. Voilà une présentation très sommaire des éléments graphiques

la scène est divisée en 2 parties séparées verticalement
1. celle du haut propose les éléments graphiques correspondant au paramètre d'intérêt
2. celle du bas propose les éléments graphiques correspondant au paramètre d'écart (standardisé) (introduit plus tard)
les éléments graphiques sont au choix : des barres verticales, des courbes, double-flèches et des surfaces

►Affirmation d'intérêt

Dans le cadre de ce cours, une affirmation d'intérêt s'exprime par la comparaison du paramètre d'intérêt INCONNU , noté à partir de maintenant $\theta^\bullet$ (pouvant être en autres choses, une proportion $p^\bullet$, une moyenne $\mu^\bullet$ et une variance $\sigma^2_\bullet$)

$\boldsymbol{H_1}: \theta^\bullet<\theta_0$ (unilatéral gauche)
$\boldsymbol{H_1}: \theta^\bullet>\theta_0$ (unilatéral droit)
$\boldsymbol{H_1}: \theta^\bullet\neq\theta_0$ (bilatéral)

Appli Internet : Une première mise en route

sélectionner le paramètre de moyenne et laisser les paramètres par défaut puis cliquer sur le bouton "Go" correspondant à la problématique du produit B (affirmation d'intérêt : produit B rentable ssi $\mu^B>0.15$)
reconnaître les différents éléments et essayer de comprendre le code des couleurs utilisées
faire déplacer la barre rouge et essayer de décrire ce que vous voyez et comprenez

►Paramètre d'écart

Lorsqu'on s'intéresse aux affirmations d'intérêt précédentes exprimant des compaisons entre le paramètre d'intérêt $\theta^\bullet$ et une valeur de référence $\theta_0$, il est naturel se s'intéresser à toute forme d'écart entre $\theta^\bullet$ et $\theta_0$.
Introduisons alors le paramètre d'écart (standardisé) $\delta_{\theta^\bullet,\theta_0}$ en langage littéral puis mathématique : $$\mathbf{\text{paramètre d'écart}}:=\mathbf{\frac{\text{paramètre d'intérêt - valeur de référence}}{\text{qualité d'estimation}}}$$ $$\delta_{\theta^\bullet,\theta_0}:=\frac {\theta^\bullet-\theta_0}{\sigma_{\widehat\theta^\bullet}}$$ A priori, le rôle du dénominateur (ici le paramètre de qualité d'estimation) joue un rôle plus technique qu'informatif à la différence du numérateur qui mesure l'écart absolu entre $\theta^\bullet$ et $\theta_0$.
Pour le cas particulier d'une proportion, il est même préférable de modifier le dénominateur. $$\delta_{p^\bullet,p_0}:=\frac {p^\bullet-p_0}{\sqrt{\frac{p_0(1-p_0)}n}}$$ Indépendamment de l'expression du paramètre d'écart (standardisé), il est nous est offert la possibilité de réexprimer l'affirmation d'intérêt. Compte tenu de nos choix précédents, on peut réécrire les affirmations d'intérêt comme suit :

$\boldsymbol{H_1}: \delta_{\theta^\bullet,\theta_0}<0$ (unilatéral gauche)
$\boldsymbol{H_1}: \delta_{\theta^\bullet,\theta_0}>0$ (unilatéral droit)
$\boldsymbol{H_1}: \delta_{\theta^\bullet,\theta_0}\neq 0$ (bilatéral)

De la même façon que le paramètre d'intérêt, le paramètre d'écart (standardisé) est INCONNU et estimé le plus naturellement possible en remplaçant dans son expression les paramètres INCONNUS par leurs estimations. Exprimons le paramètre d'écart estimé en langage littéral puis mathématique : $$\mathbf{\text{paramètre d'écart estimé}}:=\mathbf{\frac{\text{estimation - valeur de référence}}{\text{erreur standard}}}$$ $$\widehat\delta_{\theta^\bullet,\theta_0}\left(\boldsymbol y^\bullet\right):=\frac {\widehat\theta^\bullet\left(\boldsymbol y^\bullet\right)-\theta_0}{\widehat{\sigma_{\widehat\theta^\bullet}}\left(\boldsymbol y^\bullet\right)}$$ et dans le cas particulier d'un paramètre de proportion $$\widehat\delta_{p^\bullet,p_0}\left(\boldsymbol y^\bullet\right):=\frac {\widehat p^\bullet\left(\boldsymbol y^\bullet\right)-p_0}{\sqrt{\frac{p_0(1-p_0)}n}}$$ Appli Internet : à partir du menu de boutons en bas de page (Rappel : $\theta=\mu$ pour le produit B)

activer l'élément graphique (barre, courbe, flêches) correspondant au paramètre d'écart (standardisé)
activer l'élément graphique (barre, courbe, flêches) correspondant à l'ensemble des estimations possibles du paramètre d'écart (standardisé)

►Forme de la Règle de décision

Pour aller plus vite et donc ne pas s'éterniser sur des explications pas très informatives, on affirme tout de suite que l'introduction du paramètre d'écart (standardisé) est nécessaire si l'on veut réussir à construire l'outil d'aide à la décision pour tous les types de paramètres que l'on considèrera. La seule information réellement à comprendre est que l'affirmation d'intérêt s'exprime de manière équivalente à la fois avec le paramètre d'intérêt et le paramètre d'écart (standardisé)
Le jour J, il nous faudra décider au vu du jeu de données (l'échantillon $\mathbf{y}^\bullet$) si nous pensons que l'affirmation d'intérêt nous semble plutôt vraie. Insistons en effet sur le fait que puisque le paramètre d'intérêt est INCONNU, il ne sera pas possible d'être certain de la décision prise au vu du jeu de données. La forme de la Règle de Décision s'exprime assez naturellement par :
Accepter l'affirmation d'intérêt si

$\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet\right) < \delta^-_{lim}$
$\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet\right) > \delta^+_{lim}$
$\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet\right) < \delta^-_{lim}$ ou $\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet\right) > \delta^+_{lim}$

On aura alors pour OBJECTIF de déterminer les seuils (limites) $\delta^-_{lim}$ et $\delta^+_{lim}$ dans chacun de ces trois cas correspondant respectivement aux tests unilatéral gauche, unilatéral droit et bilatéral.
Appli Internet : à partir du menu de boutons en bas de page (Rappel : $\theta$ doit être remplacé par $\mu$ pour le produit B)

activer l'élément graphique (barre, courbe, flêches) correspondant au seuil limite $\delta^+_{lim}$ ($+$ signifie "droite")
activer l'élément graphique (barre, courbe, flêches) correspondant à l'ensemble de toutes les estimations possibles du paramètre d'écart (standardisé)
à quoi correspond graphiquement l'OBJECTIF décrit ci-dessus ?
est-ce possible à cette étape de finaliser la Règle de Décision ?

►Erreurs de décision et Risques associés

Ayant pris conscience qu'il n'y a aucune chance de ne pas se tromper en appliquant un tel outil d'aide à la décision, analysons alors tous les scenaris possibles. Pour fixer les idées commençons par traiter l'exemple du test unilatéral droit ($\mathbf{H_1}:\theta^\bullet>\theta_0$). Les autres cas se généralisent dans le même esprit. Apportons alors des réponses aux questions suivantes (en utilisant notamment l'outil graphique fourni à la fin de ce document dans la section "Supports de cours")

Erreur de type I: supposons que l'affirmation d'intérêt est fausse (on se place dans une des MAUVAISES situations non $\boldsymbol{H_1}: \theta^\bullet\leq \theta_0$), est-il possible le jour J de tomber sur un échantillon $\mathbf y^\bullet$ nous conduisant à accepter l'affirmation d'intérêt (à savoir, $\widehat{\delta_{\theta^\bullet,\theta_0}}(\mathbf y^\bullet)>\delta^+_{lim}$).
Erreur de type II: supposons alternativement que l'affirmation d'intérêt est vraie (on se place dans une des BONNES situations $\boldsymbol{H_1}: \theta^\bullet > \theta_0$), est-il possible le jour J de tomber sur un échantillon $\mathbf y^\bullet$ nous conduisant à NE PAS accepter l'affirmation d'intérêt (à savoir, $\widehat{\delta_{\theta^\bullet,\theta_0}}(\mathbf y^\bullet)\ngtr\delta^+_{lim}$).
Pour chacun de ces deux types d'erreur, sauriez-vous évaluer les chances de se tromper dans sa décision ? Si tel est le cas, les probabilités correspondantes seraient appelées risque d'erreur de décision de type I ou II.

Si $\theta$ désigne une valeur possible du paramètre d'intérêt $\theta^\bullet$, on définit

fonction puissance : $\gamma(\theta):=\color{brown}{\mathbb{P}_{\theta^\bullet=\theta}\left(\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol Y^\bullet\right) > \delta^+_{lim}\right)}=\color{teal}{\left.\overline{\left(\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet_{[\cdot]}\right) > \delta^+_{lim}\right)}_{\infty}\right|_{\theta^\bullet=\theta}}$
le risque de type I : $\alpha(\theta):=\gamma(\theta)=\color{brown}{\mathbb{P}_{\theta^\bullet=\theta}\left(\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol Y^\bullet\right) > \delta^+_{lim}\right)}=\color{teal}{\left.\overline{\left(\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet_{[\cdot]}\right) > \delta^+_{lim}\right)}_{\infty}\right|_{\theta^\bullet=\theta}}$ avec $\theta\leq\theta_0$ (c-à-d MAUVAISES situations non $\boldsymbol{H_1}$)
le risque de type II : $\beta(\theta):=1-\gamma(\theta)=\color{brown}{\mathbb{P}_{\theta^\bullet=\theta}\left(\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol Y^\bullet\right) \ngtr \delta^+_{lim}\right)}=\color{teal}{\left.\overline{\left(\widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol y^\bullet_{[\cdot]}\right) \ngtr \delta^+_{lim}\right)}_{\infty}\right|_{\theta^\bullet=\theta}}$ avec $\theta>\theta_0$ (c-à-d BONNES situations $\boldsymbol{H_1}$)

Enchaînons alors avec une autre série de petites questions

quelle est la plus grande valeur prise par la somme des deux risques de type I et II (autrement dit, $\max_\theta(\alpha(\theta))+\max_\theta(\beta(\theta))$) ?
(Appli Internet : déplacer la barre correspondant au paramètre d'intérêt et faire afficher tour à tour les plus grands risques de type I et II)
peut-on alors construire une Règle de Décision qui permet de controler les DEUX risques de type I et II ?
les risques sont-ils plus graves pour les BONNES ou MAUVAISES situations (risques à exprimer littéralement) ?
si l'on ne se concentre que sur les risques les plus graves, quelle est la PIRE des MAUVAISES situations ?
en se plaçant dans cette PIRE des situations (appelée dorénavant $\boldsymbol H_0: \theta^\bullet=\theta_0$), le risque de type I (le plus GRAVE) est-il maximal ?

►Contrôle du risque maximal de mal décider l'affirmation d'intérêt

Ne pouvant contrôler que le risque (le plus GRAVE) de type I, on finalise la construction de la Règle de Décision en se plaçant dans la PIRE des situations $\boldsymbol H_0: \theta^\bullet=\theta_0$ où le risque de type I est maximal.
Dans cette situation $\boldsymbol H_0: \theta^\bullet=\theta_0$, on sait que $$ \widehat{\delta_{\theta^\bullet,\theta_0}}\left(\boldsymbol Y^\bullet\right):=\frac{\color{blue}{\widehat{\theta^\bullet}\left(\boldsymbol{Y^\bullet}\right)}-\color{blue}{\theta_0}}{\color{blue}{\widehat{\sigma_{\widehat\theta^\bullet}}\left(\boldsymbol Y^\bullet\right)}} $$ Pour un paramètre de moyenne ($\theta^\bullet:=\mu^\bullet$), on a alors $$\widehat{\delta_{\mu^\bullet,\mu_0}}\left(\boldsymbol Y^\bullet\right):=\frac{\color{blue}{\widehat{\mu^\bullet}\left(\boldsymbol{Y^\bullet}\right)}-\color{blue}{\mu_0}}{\color{blue}{\widehat{\sigma_{\widehat\mu^\bullet}}\left(\boldsymbol Y^\bullet\right)}} \mathop{\leadsto}_{Approx.} \mathcal{N}(0,1) $$ Pour un paramètre de proportion ($\theta^\bullet:=p^\bullet$), on a en particulier $$\widehat{\delta_{p^\bullet,p_0}}\left(\boldsymbol Y^\bullet\right):=\frac{\color{blue}{\widehat{p^\bullet}\left(\boldsymbol{Y^\bullet}\right)}-\color{blue}{p_0}}{\color{blue}{\sqrt{\frac{p_0(1-p_0)}{n}}}} \mathop{\leadsto}_{Approx.} \mathcal{N}(0,1) $$ En exercice, vous êtes invité (comme d'habitude) à interpréter via l'A.E.P. en décodant ces résultats obtenus via l'A.M.P..
Avant de finaliser la construction notons $\alpha=\max_\theta(\alpha(\theta))$ le risque maximal de type I
Appli Internet : finalisation de la Règle de Décision

faire un peu de nettoyage en n'affichant que les éléments graphiques utiles pour construire la Règle de Décision
déplacer enfin le seuil limite $\delta_{lim}^+$ de sorte à avoir un risque $\alpha$ (maximal de type I) raisonnable (autour de 5%)
à quelle position (en abscisse) se trouve ce seuil limite (fournir l'instruction R)
écrire la Règle de Décision nous assurant un risque maximal de type I (accepter affirmation d'intérêt à tort) fixé à 5%
faire afficher les estimations du paramètre d'intérêt et paramètre d'écart (standardisé) et appliquer cette Règle de Décision avec des estimations de moyenne et écart-type fixées à $\widehat{\mu^B}(\boldsymbol y^B)=0.17$ et $\widehat{\sigma_B}(\boldsymbol y^B)=0.35$ (i.e. avec une erreur standard $\widehat{\sigma_{\widehat\mu^B}}(\boldsymbol y^B)=0.35/\sqrt{1000}=0.011$)
peut-on penser que le produit B est rentable si l'on est prêt à accepter 5% de risque maximal de type I ?

On comprend que fixer le risque $\alpha$ maximal de type I à 5%, revient à définir une unique Règle de Décision (unique valeur du seuil limite $\delta_{lim}^+\simeq 1.645$). Si l'on change la valeur de $\alpha$, la valeur du seuil limite $\delta_{lim}^+$ est modifiée et dépend donc de $\alpha$.
Dorénavant, le(s) seuil(s) limite sera (seront) noté(s) selon la nature du test

unilatéral gauche : $\delta_{lim,\alpha}^-$
unilatéral droit : $\delta_{lim,\alpha}^+$
bilatéral : $\delta_{lim,\frac\alpha2}^-$ et $\delta_{lim,\frac\alpha2}^+$

pour souligner qu'à un niveau $\alpha$ fixé correspond une unique Règle de Décision.

►P-valeur ou Risque pour accepter l'affirmation d'intérêt avec les données

Malgré les apparences, nous n'avons pas tout à fait terminer le travail car il reste à reformuler la Règle de Décision de manière totalement équivalente mais surtout bien plus élégante et donc facile à appliquer.
Ayant compris que lorsqu'on prend une décision avec les données, on accepte un risque $\alpha$ maximal de type I fixé à un certain niveau (généralement 5%), on peut justement se demander quel est le risque (maximal de type I) à choisir (de manière économique) pour accepter l'affirmation d'intérêt avec les données ?
Appli Internet :

déplacer la barre verte $\delta_{lim,\alpha}^+$ et changer ainsi le $\alpha$ (risque maximal de type I) afin d'accepter l'affirmation d'intérêt avec le risque maximal de type I fixé à sa plus petite valeur
cliquer sur le bouton "p-valeur", afficher le risque $\alpha$ ainsi que le seuil limite et essayer de reformuler la Règle de Décision

En conclusion, la Règle de Décision se reformule de manière plus élégante :
accepter l'affirmation d'intérêt si $p-valeur < \alpha$
avec p-valeur=le (plus petit) risque ($\alpha$ maximal de type I) à encourir pour accepter l'affirmation d'intérêt avec les données

►Applications internet :

►Approche Expérimentale des Probabilités

[A.E.P.]: l'objectif est d'appréhender

la notion de distribution (ou loi de probabilité) de (transformée $t(Y)$ de) variable aléatoire $Y$ qui consiste en la répartition d'un grand nombre (en théorie, une infinité) de résultats (i.e. observation simulée) possibles
la notion de distribution de variable aléatoire échantillonnale (i.e. statistique) $t(\mathbf{Y})$ obtenue grâce à une expression dépendant d'un (futur) échantillon qui sera expérimentalement répété un grand nombre (voire une infinité) de fois
l'illustration du Théorème de la Limite Centrale (TCL en anglais) qui peut se résumer en l'étude de l'évolution de la distribution de la moyenne échantillonnale (standardisée) lorsque la taille d'échantillon augmente
la notion d'intervalle de confiance

Voici un petit descriptif des principaux éléments de l'outil expérimental pouvant être vu comme un mini-guide d'utilisation :

Choisir une expérience (ici loi de $Y$) et éventuellement une transformation $t(Y)$ ou $t(\mathbf{Y})$ avec choix éventuel de la taille échantillonnale
Choisir d'activer ou pas (bouton vert en haut à droite) le mode expérimental "variable aléatoire clonée" (voir détail du cours) consistant à choisir un point au hasard sous un $[+\infty]-histogramme$ (i.e. densité de probabilité dans le cas de v.a. continue) prédéfini par le choix de l'expérimentation faite à la première étape.
Dans le cas de l'illustration de la notion d'intervalle de confiance, ne pas oublier de fixer le bouton orange script à "ic".
La scène d'en haut représente la répartition d'un certain nombre $m$ d'expériences (via un $[m]$-histogramme) quand la scène d'en bas représente la même répartition de l'accumulation de toutes les expériences générées dynamiquement. A la fin de l'expérimentation (et en supposant que le nombre total $m$ d'expériences réalisées est assez grand), l'histogramme de la scène d'en bas représente "au mieux" la distribution de la variable aléatoire fixée à la première étape.
Pour lancer (ou faire une pause) l'expérimentation, juste appuyer sur le bouton bleu en bas à gauche.
Les boutons verts en bas permettent d'afficher interactivement les différents éléments graphiques

►Outil d'aide à la décision

[TestHypo]: cet outil se concentre sur les différentes étapes permettant l'obtention de la p-valeur qui est LA notion centrale pour l'outil d'aide à la décision. Cet outil a tout d'abord été construit pour assister l'instructeur avec pour objectif de faire une première présentation de la notion de p-valeur (notamment grâce au mode "démo" placé à droite). Le conseil d'utilisation pour un étudiant soucieux de maîtriser les enjeux d'une décision via une p-valeur est d'utiliser cet outil en même temps qu'une (re)lecture du cours permettant ainsi d'illustrer les notions du cours et les différents acteurs mis en jeu dans la construction des outils d'aide à la décision.

►Pratiquer le R (en ligne)

[WebRConsole] conçu notamment pour tester les exos de cours (sans avoir à installer le R sur son ordinateur qui est cependant fortement conseillé)

►Supports

►Support Cours Amphi

Cours 1: Introduction à l'A.E.P. (TODO)
Cours 2: Estimation par Intervalle de Confiance (TODO)
Cours 3: Aide à la décision (TODO)
Cours 4: Quizzs récapitulatifs Cours 2 et 3
Cours5: Exos Hypo 1 paramètre (pdf)
Cours6: Exos Hypo 2 paramètres (pdf)
Cours 7 et 8 de révision et préparation aux Quizzs
1. (Quizz IC)
2. (Quizz p-valeurs)

►Support de TD

Présentation Problématique : TD 1
Probabilités A.M.P vs A.E.P. : TD 2
Estimation par Intervalle de Confiance : TD 3
Outil d'aide à la décision : TD 4
Exercices d'application : TDs 5 à 10
- 1 paramètre : (Exercice 20) (Exercice 22) (Exercice 23) (Exercice 28)
- cadre Gaussien : (Exercice 24)
- 2 paramètres : (Exercice 25) (Exercice 26) (Exercice 27) (Exercice 30) (Exercice 31) (Exercice 32) (Exercice 34) (Exercice 35)

►Support de Cours

Identification au système de QCM avec le champ compte rempli avec statinf
IMPORTANT: Pour ceux qui ont un justificatif d'absence, une UNIQUE séance de rattrapage des quizzs aura lieu le MARDI 16 Avril de 15h à 17h en salle 002 du batiment Veil. Prière de contacter votre chargé de TD afin de justifier votre absence. Ce dernier nous donnera son autorisation pour votre participation au rattrapage.
Thémes des 4 QCMs (dans l'ordre)
- Langages
- Rédaction standard exercice à 1 paramètre
- P-valeurs calculées avec WebR (exos à 1 et 2 paramètres)
- Intervalles de Confiances calculés avec WebR
Mini Poly Cours pdf (autorisé aux CC et Exam), Poly Cours pdf
En résumé
(Ancienne) Fiche Td au format pdf: énoncé, corrigé
Quizz: se tester (TODO: à intégrer dans le cours précédent).