Corrélation

En probabilités et en statistique, étudier la corrélation entre deux ou plusieurs variables aléatoires ou statistiques numériques, c'est étudier l'intensité de la liaison qui peut exister entre ces variables.



Catégories :

Statistiques - Probabilités

Recherche sur Google Images :


Source image : fr.wikipedia.org
Cette image est un résultat de recherche de Google Image. Elle est peut-être réduite par rapport à l'originale et/ou protégée par des droits d'auteur.

Définitions :

  • La corrélation mesure le degré auquel deux investissements ont tendance à évoluer dans le même sens.... (source : eimgroup)

En probabilités et en statistique, étudier la corrélation entre deux ou plusieurs variables aléatoires ou statistiques numériques, c'est étudier l'intensité de la liaison qui peut exister entre ces variables. La liaison recherchée est une relation affine. Dans le cas de deux variables numériques, il s'agit de la régression linéaire.

Une mesure de cette corrélation est obtenue par le calcul du cœfficient de corrélation linéaire. Ce cœfficient est égal au rapport de leur covariance et du produit non nul de leurs écarts types. Le cœfficient de corrélation est compris entre -1 et 1.

Droite de corrélation

Article détaillé : régression linéaire.

Calculer le cœfficient de corrélation entre 2 variables numériques revient à chercher à résumer la liaison qui existe entre les variables avec une droite. On parle alors d'un ajustement linéaire.

Comment calculer les caractéristiques de cette droite ? En faisant en sorte que l'erreur qu'on commet en représentant la liaison entre nos variables par une droite soit la plus petite envisageable. Le critère formel le plus fréquemment utilisé, mais pas l'unique envisageable, est de minimiser la somme de l'ensemble des erreurs effectivement commises au carré. On parle alors d'ajustement selon la méthode des moindres carrés ordinaires. La droite résultant de cet ajustement se nomme une droite de régression. Plus la qualité globale de représentation de la liaison entre nos variables par cette droite est bonne, et plus le cœfficient de corrélation linéaire associé l'est aussi. Il existe une équivalence formelle entre les deux concepts.

Cœfficient de corrélation linéaire de Bravais-Pearson

Formule

r_p = \frac{\sigma_{xy}}{\sigma_x \sigma_y}

A titre d'exemple, nous allons calculer le cœfficient de corrélation entre deux séries de même longueur (cas typique : une régression). On suppose qu'on a les tableaux de valeurs suivants : X (x_1, \ldots, x_n) et Y (y_1, \ldots, y_n) pour chacune des deux séries. Alors, pour connaître le cœfficient de corrélation liant ces deux séries, on applique la formule suivante :

r_p = \dfrac{\displaystyle \sum_{i=1}ˆN (x_i - \bar x)\cdot(y_i - \bar y)}{\sqrt{\displaystyle \sum_{i=1}ˆN (x_i - \bar x)ˆ2}\cdot\sqrt{\displaystyle \sum_{i=1}ˆN (y_i - \bar y)ˆ2}}

Si r vaut 0, les deux courbes ne sont pas corrélées. Les deux courbes sont d'autant mieux corrélées que r est loin de 0 (proche de -1 ou 1).

avec :


\sigma_{xy} =\frac{1}{N}{\sum_{i=1}ˆN (x_i - \bar x)\cdot(y_i - \bar y)} est la covariance entre x et y

\sigma_x =\sqrt{\dfrac{1}{N}\displaystyle \sum_{i=1}ˆN (x_i - \bar x)ˆ2} est l'écart-type de X

et \sigma_y =\sqrt{\dfrac{1}{N}\displaystyle \sum_{i=1}ˆN (y_i - \bar y)ˆ2} est l'écart-type de Y

\bar x =\dfrac{1}{N}{\displaystyle \sum_{i=1}ˆN x_i} est la moyenne de X et \bar y =\dfrac{1}{N}{\displaystyle \sum_{i=1}ˆN y_i} est la moyenne de Y

moyenne :

Soit xi la valeur de la variable pour l'individu i.
\sum_{i=1}ˆN x_i est la somme des N valeurs où N sert à désigner le nombre d'individus.

\bar x =\dfrac{x_1+x_2+ ..+x_n}{N}=\dfrac{1}{N}{\displaystyle \sum_{i=1}ˆN x_i}

Interprétation

Il est égal à 1 dans le cas où l'une des variables est fonction affine croissante de l'autre variable, à -1 dans le cas où la fonction affine est décroissante. Les valeurs intermédiaires renseignent sur le degré de dépendance linéaire entre les deux variables. Plus le cœfficient est proche des valeurs extrêmes -1 et 1, plus la corrélation entre les variables est forte ; on emploie simplement l'expression «fortement corrélées» pour qualifier les deux variables. Une corrélation égale à 0 veut dire que les variables sont linéairement indépendantes.

Le cœfficient de corrélation n'est pas sensible aux unités de chacune de nos variables. Ainsi, par exemple, le cœfficient de corrélation linéaire entre l'âge et le poids d'un individu sera semblable que l'âge soit mesuré en semaine, en mois ou en année (s).

En revanche, ce cœfficient de corrélation est extrêmement sensible à la présence de valeurs aberrantes ou extrêmes dans notre ensemble de données (valeurs particulièrement éloignées de la majorité des autres, pouvant être reconnues comme des exceptions).

Interprétation géométrique

Les deux séries de valeurs X (x_1, \ldots, x_n) et Y (y_1, \ldots, y_n) peuvent être reconnues comme des vecteurs dans un espace à n dimensions. Remplaçons-les par des vecteurs centrés : X (x_1 - \bar x, \ldots, x_n - \bar x) et Y (y_1 - \bar y, \ldots, y_n - \bar y).

Le cosinus de l'angle α entre ces vecteurs est donné par la formule suivante (produit scalaire normé)  :

\cos(\alpha) = \dfrac{\displaystyle \sum_{i=1}ˆN (x_i - \bar x)\cdot(y_i - \bar y)}{\sqrt{\displaystyle \sum_{i=1}ˆN (x_i - \bar x)ˆ2}\cdot\sqrt{\displaystyle \sum_{i=1}ˆN (y_i - \bar y)ˆ2}}

Donc cos (α) = rp

Le cœfficient de corrélation n'est autre que le cosinus entre les deux vecteurs centrés !

Si r = 1, l'angle α = 0, les deux vecteurs sont colinéaires (parallèles).
Si r = 0, l'angle α = 90°, les deux vecteurs sont orthogonaux.
Si r = -1, l'angle α vaut 180°, les deux vecteurs sont colinéaires de sens opposé.
D'une façon plus générale : α = arccos (r) , où arccos est la réciproque de la fonction cosinus.

Bien sûr, du point vue géométrique, on ne parle pas de «corrélation linéaire» : le cœfficient de corrélation a toujours un sens, quelle que soit sa valeur entre -1 et 1. Il nous renseigne de façon précise, non pas tant sur le degré de dépendance entre les variables, que sur leur distance angulaire dans l'hypersphère à n dimensions.

Dépendance

Attention, il est toujours envisageable de calculer un cœfficient de corrélation (sauf cas particulièrement spécifique) mais un tel cœfficient n'arrive pas forcément à rendre compte de la relation qui existe en réalité entre les variables étudiées. En effet, il suppose qu'on essaye de juger de l'existence d'une relation linéaire entre nos variables. Il n'est par conséquent pas adapté pour juger de corrélations qui ne seraient pas linéaires et non linéarisables. Il perd aussi de son intérêt quand les données étudiées sont particulièrement hétérogènes dans la mesure où il représente une relation moyenne et qu'on sait que la moyenne n'a pas forcément un sens, surtout si la distribution des données est multi modale.

Si les deux variables sont complètement indépendantes, alors leur corrélation est égale à 0. La réciproque est cependant fausse, car le cœfficient de corrélation indique seulement une dépendance linéaire. D'autres phénomènes, par exemple, peuvent être corrélés de manière exponentielle, ou sous forme de puissance (voir série statistique à deux variables en mathématiques élémentaires).

Supposons que la variable aléatoire X soit uniformément distribuée sur l'intervalle [-1;1], et que Y = X2 ; alors Y est totalement déterminée par X, de sorte que X et Y ne sont pas indépendants, mais leur corrélation vaut 0.

Ces considérations sont illustrées par des exemples dans le domaine des statistiques.

Correlation100.png
Correlation077.png
Correlation000.png

Relation de cause à effet

Une erreur courante est de croire qu'un cœfficient de corrélation élevé induit une relation de causalité entre les deux phénomènes mesurés. En réalité, les deux phénomènes peuvent être corrélés à un même phénomène-source : une troisième variable non mesurée, et dont dépendent les deux autres. Le nombre de coups de soleil observés dans une station balnéaire, par exemple, peut être fortement corrélé au nombre de lunettes de soleil vendues ; mais aucun des deux phénomènes n'est certainement la cause de l'autre.

Précautions à prendre

En général, l'étude de la relation entre des variables, quelles qu'elles soient, doit s'accompagner de graphiques descriptifs, exhaustifs ou non dans l'appréhension des données à notre disposition, pour éviter de subir les limites purement techniques des calculs que nous utilisons. Néanmoins, dès qu'il s'agit de s'intéresser à des liaisons entre de nombreuses variables, les représentations graphiques peuvent ne plus être envisageables ou être au mieux illisibles. Les calculs, comme ceux évoqués jusqu'désormais et par conséquent limités par définition, nous aident alors à simplifier les interprétations que nous pouvons donner des liens entre nos variables, et c'est bien là leur intérêt principal. Il restera alors à vérifier que les principales hypothèses nécessaires à leur bonne lecture soient validées avant une quelconque interprétation.

Voir aussi

Recherche sur Amazone (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Corr%C3%A9lation_(statistiques).
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu