Analyse en composantes principales

L'Analyse en Composantes Principales est une méthode de la famille de l'analyse des données et d'une façon plus générale de la statistique multivariée, qui consiste à transformer des variables liées entre elles en nouvelles variables indépendantes les unes des autres.



Catégories :

Analyse des données - Statistiques

Recherche sur Google Images :


Source image : pages.usherbrooke.ca
Cette image est un résultat de recherche de Google Image. Elle est peut-être réduite par rapport à l'originale et/ou protégée par des droits d'auteur.

Définitions :

  • méthode mathématique d'analyse des données qui consiste à rechercher les directions de l'espace qui représentent le mieux les ... (source : id-stat)

L'Analyse en Composantes Principales (ACP) est une méthode de la famille de l'analyse des données et d'une façon plus générale de la statistique multivariée, qui consiste à transformer des variables liées entre elles (dites "corrélées" en statistique) en nouvelles variables indépendantes les unes des autres (donc "non corrélées"). Ces nouvelles variables sont appelées "composantes principales", ou axes. Elle permet au praticien de diminuer l'information en un nombre de composantes plus limité que le nombre d'origine de variables.

Il s'agit d'une approche à la fois géométrique (représentation des variables dans un nouvel espace géométrique selon des directions d'inertie maximale) et statistique (recherche d'axes indépendants expliquant au mieux la variabilité - la variance - des données). Quand on veut alors compresser un ensemble de N variables aléatoires, les n premiers axes de l'ACP sont un meilleur choix, du point de vue de l'inertie ou la variance expliquée (cf plus loin).


Histoire

Extrait de l'article de Pearson de 1901 : la recherche de la "droite du meilleur ajustement"

L'ACP prend sa source dans un article de Karl Pearson publié en 1901[1]. Le père du Test du χ² y prolonge ses travaux dans le domaine de la régression et des corrélations entre plusieurs variables. Pearson utilise ces corrélations non plus pour expliquer une variable à partir des autres (comme en régression), mais pour décrire et résumer l'information contenue dans ces variables.

Encore connue sous le nom de transformée de Karhunen-Loève ou de transformée de Hotelling, l'ACP a été de nouveau développée et formalisée dans les années 30 par Harold Hotelling[2]. La puissance mathématique de l'économiste et statisticien américain le conduira aussi à développer l'analyse canonique, généralisation des analyses factorielles dont fait partie l'ACP.

Les champs d'application sont actuellement multiples, allant de la biologie à la recherche économique et sociale, et plus récemment le traitement d'images. L'ACP est surtout utilisée pour :

Exemples introductifs

Les deux axes d'une ACP sur la photo d'un poisson

Premier exemple

Dans le cas d'une image, comme dans la figure ci-contre, les pixels sont représentés dans un plan et reconnus comme une variable aléatoire à deux dimensions. L'ACP va déterminer les deux axes qui expliquent le mieux la dispersion de l'objet, interprété comme un nuage de points. Elle va aussi les ordonner par inertie expliquée, le second axe étant perpendiculaire au premier.

Second exemple

Dans une école imaginaire, on n'enseigne que deux matières sur lesquelles les élèves sont notés : le français et les mathématiques. En appliquant l'ACP au tableau de notes, on dégagera certainement en premier axe des valeurs par élève particulièrement proches de leur moyenne générale dans les deux matières. C'est cet axe qui résumera au mieux la variabilité des résultats selon les élèves. Mais un professeur voulant pousser l'analyse des résultats, s'intéressa aussi au second axe, qui ordonne les élèves selon l'ampleur de leurs écarts entre les deux notes, et indépendamment du premier axe.

On comprend l'intérêt de la méthode d'ACP lorsque on étend l'analyse à 10 matières enseignées : la méthode va calculer pour chaque élève 10 nouvelles valeurs, selon 10 axes, chacun étant indépendant des autres. Les derniers axes apporteront particulièrement peu d'information au plan statistique : ils mettront certainement en évidence quelques élèves au profil singulier. Selon son point de vue d'analyse, le professeur veillera à ces élèves dans sa pratique quotidienne, corrigera peut-être une erreur qui s'est glissée dans son tableau, mais ne prendra pas en compte les derniers axes s'il s'agit d'une réflexion pédagogique plus globale.

La puissance de l'ACP est qu'elle sait aussi prendre en compte des données de nature hétérogène : par exemple un tableau des différents pays du monde avec le PNB par habitant, le taux d'alphabétisation, le taux d'équipement en téléphones portables, le prix moyen du hamburger, etc... Elle permet d'avoir une intuition rapide des effets conjoints entre ces variables.

Échantillon

On applique habituellement une ACP sur un ensemble de N variables aléatoires X1, …, XN connues à partir d'un échantillon de K réalisations conjointes de ces variables.

Cet échantillon de ces N variables aléatoires peut être structuré dans une matrice M à K lignes et N colonnes.

M=\begin{bmatrix} X_{1,1} & \cdots & X_{1,N} \\ \vdots & \ddots & \vdots \\ X_{K,1} & \cdots & X_{K,N}\end{bmatrix}

Chaque variable aléatoire Xn = (X1, n, …, XK, n) 'a une moyenne \bar X_n et un écart type σXn.

Poids

Si les réalisations (les éléments de la matrice M) sont à probabilités identiques alors chaque réalisation (un élément Xi, j de la matrice) a la même importance 1 / n dans le calcul des caractéristiques de l'échantillon. On peut aussi appliquer un poids pi différent à chaque réalisation conjointes des variables (cas des échantillons redressés, des données regroupées, ... ). Ces poids, qui sont des nombres positifs de somme 1 sont représentés par une matrice diagonale D de taille K :

D=\begin{bmatrix} p_{1} & & & 0 \\ & p_{2} & & \\ & & \ddots & \\ 0 & & & p_{K}\end{bmatrix}

Dans le cas le plus courant de poids égaux, D = {1 \over K} II est la matrice identité.

Transformations de l'échantillon

Le vecteur (\bar X_1, \cdots, \bar X_N) est le centre de gravité du nuage de points ; on le note fréquemment g. On a g = M'D11 sert à désigner le vecteur de Rn dont l'ensemble des composantes sont identiques à 1.

La matrice M est le plus souvent centrée sur le centre de gravité :

\bar M=\begin{bmatrix} X_{1,1}-\bar X_1 & \cdots & X_{1,N}-\bar X_N \\ \vdots & \ddots & \vdots \\ X_{K,1}-\bar X_1 & \cdots & X_{K,N}-\bar X_N\end{bmatrix} = M - 1g'.

Elle peut être aussi réduite :

\tilde M=\begin{bmatrix} {X_{1,1}-\bar X_1\over \sigma(X_1)} & \cdots & {X_{1,N}-\bar X_N\over \sigma(X_N)} \\ \vdots & \ddots & \vdots \\ {X_{K,1}-\bar X_1\over \sigma(X_1)} & \cdots & {X_{K,N}-\bar X_N\over \sigma(X_N)}\end{bmatrix}.

Le choix de diminuer ou non le nuage de points (i. e. les K réalisations de la variable aléatoire (X1, …, XN) ) est un choix de modèle :

Calcul de covariances et de corrélations

Une fois la matrice M transformée en \bar M ou \tilde M, il suffit de la multiplier par sa transposée pour obtenir :

{\rm Covariances} = 1/K \cdot {}\bar M' \cdot \bar M,\; {\rm Correlations} = 1/K \cdot {}\tilde M' \cdot \tilde M

Ces deux matrices sont carrées (de taille N), symétriques, et réelles. Elles sont par conséquent diagonalisables dans une base orthonormée.

De façon plus générale, la matrice de variance-covariance s'écrit V = M'DM - gg' = \bar M' \cdot D \cdot \bar M. Si on note D1 / s la matrice diagonale des inverses des écarts-types :

D_{1/s} = \begin{bmatrix} 1/s_{1} & & 0 \\ & \ddots & \\ 0 & & 1/s_{N}\end{bmatrix}

et D_{1/sˆ2} la matrice diagonale des inverses des variances, alors on a :

\tilde M = \bar M \cdot D_{1/s}.

La matrice des cœfficients de corrélation linéaire entre les N variables prises deux à deux, notée R, s'écrit :

R = \tilde M' \cdot D \cdot \tilde M.

Critère d'inertie

Dans la suite de cet article, nous considèrerons que le nuage est transformé (centré et réduit si besoin est ). Chaque Xn est par conséquent remplacé par X_n-\bar X_n ou (X_n-\bar X_n)/\sigma(X_n). Nous utiliserons par conséquent la matrice M pour noter \bar M ou \tilde M suivant le cas.

Le principe de l'ACP est de trouver un axe u, issu d'une combinaison linéaire des Xn, tel que la variance du nuage autour de cet axe soit maximale.

Pour bien comprendre, imaginons que la variance de u soit égale à la variance du nuage; on aurait alors trouvé une combinaison des Xn qui contient toute la diversité du nuage original (en tout cas toute la part de sa diversité captée par la variance).

Comme le titre de cette section l'indique, le critère fréquemment utilisé est la variance de l'échantillon (on veut maximiser la variance expliquée par le vecteur u). Pour les physiciens, cela a plutôt le sens de maximiser l'inertie expliquée par u (c'est-à-dire minimiser l'inertie du nuage autour de u).

Projection

Finalement, nous cherchons le vecteur u tel que la projection du nuage sur u ait une variance maximale. La projection de l'échantillon des X sur u s'écrit :

\pi_u(M) = M \cdot u

la variance empirique de πu (M) vaut donc :

\pi_u(M)' \cdot 1/K \cdot \pi_u(M) = u'\cdot \underbrace{M'\cdot  1/K \cdot M}_C \cdot u

C est la matrice de covariance.

Comme nous avons vu plus haut que C est diagonalisable dans une base orthonormée, notons P le changement de base associé et Δ la matrice diagonale constituée de son spectre :

\pi_u(M)' \cdot 1/K \cdot \pi_u(M) = u' P' \Delta P u = (Pu)' \Delta \underbrace{(Pu)}_v

Après cette réécriture, nous cherchons le vecteur unitaire v qui maximise v'Δv, où Δ = Diag (λ1, …, λN) est diagonale (rangeons les valeurs de la diagonale de Δ en ordre décroissant). On peut rapidement vérifier qu'il suffit de prendre le premier vecteur unitaire ; on a alors :

 v' \cdot \Delta \cdot v = \lambda_1

Plus formellement, on démontre ce résultat en maximisant la variance empirique des données projetées sur u sous la contrainte que u soit de norme 1 (par un Multiplicateur de Lagrange α)  :

 L(u,\alpha) = u' \cdot C \cdot u - \alpha (u' u -1)

On obtient ainsi les deux résultats suivants :

  1. u est vecteur propre de C associé à la valeur propre λ1
  2. u est de norme 1

La valeur propre λ1 est la variance empirique sur le premier axe de l'ACP.

On continue la recherche du deuxième axe de projection w sur le même principe en imposant qu'il soit orthogonal à u

Diagonalisation

La diagonalisation de la matrice de corrélation (ou de covariance si on se place dans un modèle non réduit), nous a permis d'écrire que le vecteur qui explique le plus d'inertie du nuage est le premier vecteur propre. De même le deuxième vecteur qui explique la plus grande part de l'inertie restante est le deuxième vecteur propre, etc.

Nous avons vu en outre que la variance expliquée par le k-ième vecteur propre vaut λk.

Finalement, la question de l'ACP se ramène à un problème de diagonalisation de la matrice de corrélation

Numériquement

Numériquement, la matrice M étant rectangulaire, il est plus économique de la décomposer en valeurs singulières, puis de recombiner la décomposition obtenue, plutôt que de diagonaliser M' M.

Résultats théoriques

Si les sections précédentes ont travaillé sur un échantillon issu de la loi conjointe suivie par X1, …, XN, que dire de la validité de nos conclusions sur n'importe quel autre échantillon issu de la même loi ?

Plusieurs résultats théoriques permettent de répondre au moins partiellement à cette question, principalement en se positionnant comparé à une distribution gaussienne comme référence.

Applications

L'Analyse en Composantes Principales est habituellement utilisée comme outil de compression linéaire. Le principe est alors de ne retenir que les n premiers vecteurs propres issus de le diagonalisation de la matrice de corrélation (ou covariance), quand l'inertie du nuage projeté sur ces n vecteurs représente qn pourcents de l'inertie du nuage original, on dit qu'on a un taux de compression de 1 - qn pourcents, ou qu'on a compressé à qn pourcents. Un taux de compression courant est de 20 %.

Les autres méthodes de compressions statistiques habituelles sont :

Il est envisageable d'utiliser le résultat d'une ACP pour construire une classification statistique des variables aléatoires X1, …, XN, en utilisant la distance suivante (Cn, n' est la corrélation entre Xn et Xn' )  :

d(X_n,X_{n'})=\sqrt{2\,(1-C_{n,n'})}

Notes

  1. (en) Pearson, K., «On Lines and Planes of Closest Fit to Systems of Points in Space», dans Philosophical Magazine, vol.  2, no 6, 1901, p.  559–572 [[pdf] texte intégral]
  2. Analysis of a Complex of Statistical Variables with Principal Components", 1933, Journal of Educational Psychology

Voir aussi

Références


Recherche sur Amazone (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Analyse_en_composantes_principales.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu