Variance

En statistique et probabilité, la variance est une mesure arbitraire permettant de caractériser la dispersion d'une distribution ou d'un échantillon.



Catégories :

Statistique descriptive - Statistiques - Probabilités

Recherche sur Google Images :


Source image : memoireonline.com
Cette image est un résultat de recherche de Google Image. Elle est peut-être réduite par rapport à l'originale et/ou protégée par des droits d'auteur.

Définitions :

  • La variance mesure les fluctuations des finances des joueurs de poker. La variance ne mesure pas obligatoirement la qualité du jeu.... (source : pokerstars)

En statistique et probabilité, la variance est une mesure arbitraire permettant de caractériser la dispersion d'une distribution ou d'un échantillon.


Définition

Soit X une variable aléatoire réelle dont le moment d'ordre 2, à savoir \mathbb{E}\left(Xˆ2\right), existe.

Définition — \operatorname{Var}(X)\equiv V(X) \equiv \mathbb{E}\left[(X-\mathbb{E}[X])ˆ2\right]

étant l'espérance mathématique ; l'existence du moment d'ordre 2 implique celle de

On peut interpréter la variance comme la moyenne des carrés des écarts à la moyenne (rigoureusement : l'espérance des carrés des écarts à l'espérance, vulgairement : Moyenne des carrés moins le carré des moyennes). Elle sert à caractériser la dispersion des valeurs comparé à la moyenne. Ainsi, une distribution avec une même espérance et une variance plus grande apparaîtra comme plus étalée. Le fait qu'on prenne le carré de ces écarts à la moyenne évite que des écarts positifs et négatifs ne s'annulent.

Notation — On note fréquemment : \operatorname{Var}(X)\equiv \sigmaˆ2_X

Propriétés

Propriété — \operatorname{Var}(X)=\mathbb{E}\left[Xˆ2\right]-\mathbb{E}[X]ˆ2

Cette formule s'énonce ainsi : la variance est égale à l'espérance du carré de X moins le carré de l'espérance de X. La formule permet fréquemment un calcul plus simple de la variance que la définition.
Sa démonstration est faite dans le théorème de König-Huyghens.

Propriété — \operatorname{Var}(aX+b)=aˆ2\operatorname{Var}(X)

On remarque à travers cette propriété que le fait de déplacer simplement une distribution (ajouter +b) ne modifie pas sa variance. Par contre, changer l'échelle (multiplier par a) modifie la variance quadratiquement. Cette propriété permet aussi de confirmer la remarque établie auparavant que la variance d'une constante est nulle, en effet, \operatorname{Var}(b)= 0.

Si \operatorname{cov}(X,Y) sert à désigner la covariance des variables aléatoires X et Y, alors :

Propriété —  \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) + 2\operatorname{cov}(X,Y)

Propriété —  \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y)

Il faut faire attention au fait que \operatorname{Var}(X-Y) = \operatorname{Var}(X) + \operatorname{Var}(Y)! Même si les variables sont soustraites, leur variances s'additionnent.

Propriété — \operatorname{var}\left(\sum_{i=1}ˆn{X_i}\right) = \sum_{i=1}ˆn\operatorname{var}(X_i) + 2\sum_{1\le i<j\le n}\operatorname{cov}(X_i,X_j)

Cette formule est classique pour une forme quadratique associée à une forme bilinéaire symétrique. Dans ce cas spécifique, cela traduit le fait que la covariance est une forme bilinéaire symétrique positive (sur l'espace vectoriel Lˆ2(\Omega, \mathcal{B}, \mathbb{P}) des variables aléatoires de carré intégrable), et que la forme quadratique associée est la variance. On a d'une façon plus générale

Propriété — \operatorname{var}\left(\sum_{i=1}ˆn{a_i\,X_i}\right) = \sum_{i=1}ˆna_iˆ2\,\operatorname{var}(X_i) + 2\sum_{1\le i<j\le n}\,a_ia_j\,\operatorname{cov}(X_i,X_j)

En définissant \overline{X}=\frac{1}{n}\sum_{i=1}ˆn X_i

Propriété — \operatorname{Var}\left(\overline{X}\right) = \frac{\sigmaˆ2}{n}

Ecart type

Article détaillé : écart type.

L'écart type est la racine carrée de la variance :

\sigma_x = \sqrt{V(X)}

Cas discret

La variance V (X) représente la moyenne des carrés des écarts à la moyenne : elle sert à caractériser, tout comme l'écart type, la dispersion des valeurs xi comparé à la moyenne, notée \overline {x}, ou encore E (X).

Soit une série statistique (x_i, n_i)_{i = 1 \cdots k} de moyenne \overline{x} et d'effectif total n (c'est-à-dire n=\sum_{i=1}ˆk n_i et p_i=\frac{n_i}{n}).

La variance de cette série est alors :

V(X)=\sum_{i=1}ˆk p_i(x_i-\overline{x})ˆ2

Simplification

La moyenne peut être reconnue comme le barycentre de la série.

D'après le théorème de König, on a : V(X)=\sum_{i=1}ˆkp_i(x_iˆ2)-\overline{x}ˆ2

Équiprobabilité

Dans le cas d'équiprobabilité,

V(X) = \frac1n\sum_{i=1}ˆn(x_i-\bar x)ˆ2 = \frac1n\sum_{i=1}ˆn x_iˆ2 - \bar xˆ2

Remarque : égalité toujours vraie, même s'il n'y a pas équiprobabilité! (cf développer le calcul et sortir la moyenne de la somme dans le terme croisé)

Cas continu

Dans le cas continu, la variance se calcule de la façon suivante :

V(X)= \int_\mathbb R xˆ2 \cdot f(x) \cdot \mathrm dx - \left( \int_\mathbb R x \cdot f(x) \cdot \mathrm dx \right)ˆ2

Variance d'un vecteur aléatoire

Si on définit X_{k\times 1} comme un vecteur aléatoire qui comporte k variables et Μ comme le vecteur des k espérances de X, on définit alors la variance comme :

Définition — \Sigma_{k\times k} \equiv \operatorname{Var}[X_{k\times 1}]\equiv \mathbb{E}\left[(X_{k\times 1}-\Mu)(X_{k\times 1}-\Mu)'\right]

Il s'agit alors d'une matrice carrée de taille k, nommée matrice de variance-covariance, qui comporte sur sa diagonale les variances de chaque composante du vecteur aléatoire et en dehors de la diagonale les covariances. Cette matrice est symétrique et semi-définie positive ; elle est définie positive si et uniquement si l'unique combinaison linéaire certaine (c'est-à-dire presque sûrement constante) des composantes du vecteur aléatoire est celle dont l'ensemble des cœfficients sont nuls.

On a les propriétés suivantes :

Propriété — Si V est une matrice carrée de taille k, \operatorname{Var}[V_{k\times k}X_{k\times 1}]=V\operatorname{Var}[X]V'

Estimation

Deux estimateurs sont le plus souvent utilisés pour la variance :

s_nˆ2 = \frac 1n \sum_{i=1}ˆn \left(y_i - \overline{y} \right)ˆ 2 = \left(\frac{1}{n} \sum_{i=1}ˆ{n}y_iˆ2\right) - \overline{y}ˆ2,

et

sˆ2_{n-1} = \frac{1}{n-1} \sum_{i=1}ˆn\left(y_i - \overline{y} \right)ˆ 2 = \frac{1}{n-1}\sum_{i=1}ˆn y_iˆ2 - \frac{n}{n-1} \overline{y}ˆ2,

Propriétés

Biais

Pourquoi n-1?

Le fait que l'estimateur de la variance doive être divisé par n-1 (et par conséquent dans un certain sens moins précis) pour être sans biais provient du fait que l'estimation de la variance implique l'estimation d'un paramètre en plus, l'espérance. Cette correction tient compte par conséquent du fait que l'estimation de l'espérance induit une incertitude de plus. En effet :

Théorème — si on suppose que l'espérance est connue, l'estimateur  Sˆ2_{n} est sans biais

Convergence

Les estimateurs sˆ2_{n} et sˆ2_{n-1} sont convergents en probabilité.

Théorème — sˆ2_{n} et sˆ2_{n-1} \quad \xrightarrow{p} \quad \sigmaˆ2 si les observations sont iid (μ, σ2) .

Distribution des estimateurs

Comme fonction de variables aléatoires, l'estimateur de la variance est aussi une variable aléatoire. Sous l'hypothèse que les yi sont des observations indépendantes d'une loi normale, le théorème de Cochran   (en) montre que sˆ2_{n-1} suit une loi du χ² :


(n-1)\frac{sˆ2_{n-1}}{\sigmaˆ2}\sim\chiˆ2_{n-1}.

En conséquence, il suit que  \operatorname{E}(sˆ2_{n-1})=\sigmaˆ2.. Cette propriété d'absence de biais peut cependant être démontrée même sans l'hypothèse de normalité des observations.

Méthodes de calcul

Le calcul par ordinateur de la variance empirique peut poser certains problèmes, surtout à cause de la somme des carrés. La page anglaise : Algorithms for calculating variance décrit le problème mais aussi des algorithmes proposés.

Voir aussi

Recherche sur Amazone (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Variance_(statistiques_et_probabilit%C3%A9s).
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu