Statistique mathématique

Les statistiques, dans le sens populaire du terme, traitent des populations. En, on se contente de décrire un échantillon à partir de grandeurs comme la moyenne, la médiane, l'écart type, la proportion, la corrélation, etc.



Catégories :

Statistiques

Recherche sur Google Images :


Source image : blogperso.univ-rennes1.fr
Cette image est un résultat de recherche de Google Image. Elle est peut-être réduite par rapport à l'originale et/ou protégée par des droits d'auteur.

Page(s) en rapport avec ce sujet :

  • La moyenne, en statistique, est un concept particulièrement proche du centre de gravité... des mathématiques et de la physique, il a laissé son nom à loi gaussienne, ... (source : cict)
  • La statistique mathématique montre que mv a une distribution d'échantillonnage normale, avec une moyenne égale à la vraie moyenne µv et un écart type égal à ... (source : pdfqueen)

Les statistiques, dans le sens populaire du terme, traitent des populations. En, on se contente de décrire un échantillon à partir de grandeurs comme la moyenne, la médiane, l'écart type, la proportion, la corrélation, etc. C'est fréquemment la technique qui est utilisée dans les recensements.

Dans un sens plus large, la théorie statistique est utilisée en recherche dans un but inférentiel. L'objectif de l'inférence statistique est de dégager le portrait d'une population donnée, à partir de l'image plus ou moins floue constituée avec un échantillon issu de cette population.

Dans un autre ordre d'idées, il existe aussi la statistique "mathématique" où le défi est de trouver des estimateurs judicieux (non biaisées et efficients). L'analyse des propriétés mathématiques de ces estimateurs sont au cœur du travail du mathématicien spécialiste de la statistique.

Statistique

La statistique mathématique repose sur la théorie des probabilités. Des notions comme la mesurabilité ou la convergence en loi y sont fréquemment utilisées. Mais il faut distinguer la statistique comme discipline et la statistique comme fonction des données.

Une fois les bases de la théorie des probabilités acquises, il est envisageable de définir une statistique à partir d'une fonction S mesurable à n arguments. Quand les valeurs x_1,\ldots,x_n sont des réalisations d'une même variable aléatoire X, on note :

S(X)=S(x_1,\ldots,x_n)

La loi de S (X) dépend seulement de la loi de X et de la forme de S.

Fonctions de répartition

La fonction de répartition d'une variable aléatoire réelle X (cette définition couvre naturellement aux variables aléatoires à valeurs dans des espaces de dimension quelconque) associe à une valeur x la probabilité qu'une réalisation de X soit plus petite de x :

F (x) = Prob (X < x)

Quand on dispose de n réalisations de X, on peut construire la fonction de répartition empirique de X ainsi (on note x (k) la kème valeur ordonnées des x_1,\ldots,x_n et on pose arbitrairement x_{(0)}=-\infty et x_{(n+1)}=+\infty)  :

Fˆ*_n(x) = {k\over n},\, \forall x\in ]x_{(k)},x_{(k+1)}]

de même, la distribution empirique peut se définir (pour tout borélien B) comme :

\mathbf{P}ˆ*_n(B) = {1\over n}\sum_{k=1}ˆn \mathbf{1}_{x_k}(B)

Le Théorème de Glivenko-Cantelli assure la convergence de la fonction de distribution empirique vers la fonction de distribution original quand la taille n de l'échantillon augmente vers l'infini.

Ces deux fonctions empirique n'étant pas continues, on leur préfère fréquemment des estimateurs par noyau, qui ont les mêmes propriétés de convergence.

Types de statistiques

On définit habituellement plusieurs types de statistiques suivant la forme de S :

L'intérêt de cette différenciation est que chaque catégorie de statistique va avoir des caractéristiques propres.

Les estimateurs par noyau, et les moments empiriques d'une loi sont les M-statistiques.

Le moment empirique d'ordre k d'une loi calculé à partir d'un échantillon x_1,\ldots,x_n est :

\mu_nˆ{(k)}(X) = {1\over n}\sum_{i=1}ˆn x_iˆk

Il s'agit d'un estimateur de E (Xk) . Le moment centré d'ordre k est E ( (XE (X) ) k) . La variance est le moment centré d'ordre 2.

Exemple de statistiques : Moyenne et variance

Considérons une population d'où on extrait un échantillon d'effectif n de façon purement aléatoire dont les éléments sont xi. Dans ce cas, la statistique descriptive qui estime la moyenne de la population est la moyenne empirique

m ={1 \over n} \sum_{i=1}ˆn x_i

La statistique qui estime la dispersion autour de la moyenne est la variance empirique

sˆ2 = {1 \over n-1} \sum_{i=1}ˆn (x_i - m)ˆ2

La loi de probabilité associée à cette population possède une moyenne μ et une variance σ2 qui sont estimés par m et s2. Le problème est que, si on avait choisi un autre échantillon, on aurait trouvé des valeurs différentes pour ces estimations.

Ceci conduit à considérer les éléments, la moyenne empirique et la variance empirique comme des variables aléatoires. Ces variables suivent une loi de probabilité donnée. Une fois qu'on connait ces lois de probabilité, il est envisageable de construire les tests statistiques voulus pour étudier les paramètres d'intérêt (μ et σ2 pour cet exemple).

Sous la condition d'indépendance entre les observations, on peut calculer la moyenne (ou espérance) et la variance de la moyenne empirique. On obtient :

E[m] = \mu \qquad \qquad V[m] = \sigmaˆ2 / n



L'écart-type de la moyenne empirique vaut σ / √n. Si n devient grand, le théorème de la limite centrale enseigne que la moyenne empirique suit une loi normale caractérisée par la moyenne μ et cet écart-type. Ce résultat reste valable quelle que soit la taille de l'échantillon quand la loi de probabilité assignée à la population est normale. Dans ce dernier cas, en particulier important en pratique, on montre aussi que (n-1) s2 / σ2 suit une loi de χ2 à n-1 degrés de liberté.

Estimation

Ces résultats s'interprètent directement en termes d'estimation.

Le problème d'estimation est relié aux intervalles de confiance. L'idée est d'apporter une estimation d'un paramètre accompagnée d'une idée de sa précision liée aux fluctuations échantillonnales.

Voici un exemple bien spécifique d'intervalle de confiance pour la moyenne.

Pour décrire le principe, considérons un exemple assez artificiel qui présente l'avantage de la simplicité : l'estimation de la moyenne (m) d'une population supposée normale dont nous connaîtrions l'écart-type (σ). Selon le paragraphe précédent, la moyenne empirique suit aussi une loi normale dont l'écart-type est divisé par le facteur \sqrt n.

Puisque les tables de probabilités de la loi normale sont connues, nous pouvons déterminer qu'un intervalle centré autour de la moyenne empirique aura x % de chance de contenir la vraie moyenne. En pratique, x est fréquemment fixé à 95. Quand on fixe x (à 95 par exemple), on détermine la longueur de l'intervalle de confiance simplement par connaissance de la loi normale. Voici l'intervalle de confiance à 95 % pour ce cas particulièrement précis.

 [m - {{1? \sigma}\over \sqrt n}\ ; m + {{1? \sigma}\over \sqrt n}]

voir aussi loi de Student.

Tests d'hypothèses

Notion générale de test d'hypothèse statistique

Une hypothèse statistique concerne les paramètres issue d'une ou plusieurs populations. On ne peut pas la vérifier mais uniquement la rejeter quand les observations paraissent en contradiction avec elle . Nous concluerons que la valeur observée (à partir de l'échantillon) est particulièrement peu probable dans le cadre de l'hypothèse (qui concerne la population).

La première étape consiste à édicter l'hypothèse nulle. Fréquemment cette hypothèse sera ce qu'on croit faux. Exemple d'hypothèses nulles : Les deux moyennes issues de deux populations sont identiques La corrélation entre deux variables est nulle Il n'y a pas de lien entre l'âge et l'acuité visuelle etc.

L'hypothèse nulle concerne les paramètres (valeurs vraies) de la population.

Pour chaque test statistique, il y a une mesure ou statistique précise (selon le paramètre qui nous intéresse) qui suit une loi de probabilité connue. Cette statistique peut être vue comme une mesure entre ce qu'on observe dans l'échantillon et ce qu'on postule dans la population (hypothèse nulle). Plus cette mesure sera grande, plus sa probabilité d'occurrence sera petite. Si cette probabilité d'occurrence est trop petite, on aura tendance à rejeter l'hypothèse nulle et par conséquent conclure que l'hypothèse nulle est fausse.

Test paramétrique

Se dit des tests qui présupposent que les variables à étudier suivent une certaine distribution décrite par des paramètres. De nombreux tests paramétriques concernent des variables qui suivent la loi normale. Les Test-t indépendants ou appariés, les anova, la régression multiple, etc.

Test du χ²

Voici l'exemple d'un test qui utilise la loi du χ². Cependant, une grande variété de tests utilisent cette loi de probabilité : (Mc Nemar, tests de correction de modèles, tests de correction à une distribution etc... )

Exemple :

On se demande si un échantillon extrait d'une population correspond raisonnablement à une loi de probabilité hypothétique.

L'échantillon d'effectif n est divisé en k classes d'effectifs ni comme pour la construction d'un histogramme, avec une différence : il est envisageable d'utiliser des classes de largeur variable, c'est même recommandé pour éviter qu'elles soient trop petites. Avec cette précaution, le théorème de la limite centrale dans sa version multidimensionnelle indique que le vecteur des effectifs (n1, ..., nk) se comporte approximativement comme un vecteur gaussien.

La loi de probabilité étant donnée d'autre part, elle permet d'assigner à chaque classe une probabilité pi. Dans ces conditions l'expression

\sum_{i=1}ˆk {{(n_i - n p_i)ˆ2} \over {n p_i}}

qui représente d'une certaine manière la distance entre les données empiriques et la loi de probabilité supposée, suit une loi de probabilité de χ2 à k − 1 degrés de liberté.

Les tables de χ2 permettent de déterminer s'il y a lieu de rejeter l'hypothèse en prenant le risque, fixé à l'avance, de se tromper.

Si on considère le cas d'une loi de probabilité dont les paramètres (en général moyenne et écart-type) sont inconnus, la minimisation du χ2 comparé à ces paramètres apporte une estimation de ceux-ci.

Références

Voir aussi

Recherche sur Amazone (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Statistique_math%C3%A9matique.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu