Analyse factorielle des correspondances

L'analyse factorielle des correspondances, en abrégée AFC, est une méthode statistique d'analyse des données mise au point par Jean-Paul Benzecri à l'Université Pierre-et-Marie-Curie à Paris



Catégories :

Analyse des données - Statistiques - Méthode d'analyse

Recherche sur Google Images :


Source image : ceaa.gc.ca
Cette image est un résultat de recherche de Google Image. Elle est peut-être réduite par rapport à l'originale et/ou protégée par des droits d'auteur.

Page(s) en rapport avec ce sujet :

  • Ce module regroupe pour le moment 8 exercices sur l'analyse factorielle des ... le document (en ligne) "Outils pour l'analyse de donnees " acces aux modules... calculer les tableaux des profils des colonnes et des profils des lignes... (source : wims.unicaen)
  • L'analyse factorielle des correspondances vise à rassembler en un nombre réduit de .... calcul du lien sur des tableaux réduits, la formule devient alors :.... Il existe différentes projections (figure A10), en analyse des données nous... (source : web.univ-pau)
  • L'Analyse Factorielle des Correspondances (AFC). Les tableaux de contingence.... FJ/I. Les directions principales de cette analyse sont données par les ... (source : cabannes)

L'analyse factorielle des correspondances, en abrégée AFC, est une méthode statistique d'analyse des données mise au point par Jean-Paul Benzecri à l'Université Pierre-et-Marie-Curie à Paris (ISUP et Laboratoire de statistique multidimensionnelle)

Introduction

Dit grossièrement, une méthode AFC admet en entrée un "tableau croisé dynamique" comme sous Excel, et produit en sortie une ou plusieurs cartes ou images de répartition des valeurs et des variables. Exemple : La participation croisée boursière; si 6 investisseurs répartissent leurs portefeuille entre 10 entreprises, on obtient par AFC une carte comprenant 16 points, dont 6 représentent chacun des investisseurs et les 10 autres représentent chacune des 10 entreprises. l'analyse apporte en fait l'information de distance entre les points permettant d'interpréter indirectement les pourcentages de participation au capital des entreprises.

La technique de l'AFC est principalement utilisée pour de grands tableaux de données toutes identiques entre elles (si envisageable exprimées toutes dans la même unité, comme une monnaie, une dimension, une fréquence ou toute autre grandeur mesurable). Elle peut surtout permettre d'étudier des tableaux de contingence (ou tableau croisé de co-occurrence). Généralement, les méthodes factorielles permettent l'analyse d'un tableau "agrégé" de mesures, correspondant aux requêtes du type "select count (*) from.. group by (tuple_dimensions) " en langage SQL ou aux tableaux croisés dynamiques sous Excel, alors que les méthodes d'exploration de données travaillent directement sur les mesures récoltées pour chaque individu. Ces méthodes-là sont par conséquent spécifiquement recommandées pour les analyses de rapports d'études.

L'AFC permet de déterminer ainsi qu'à hiérarchiser l'ensemble des dépendances entre les lignes et les colonnes du tableau.

Le principe de ces méthodes est de partir sans a priori sur les données et de les décrire en analysant la hiérarchisation de l'information présente dans les données. Pour ce faire, les analyses factorielles étudient l'inertie du nuage de points ayant pour coordonnées les valeurs présentes sur les lignes du tableau de données.

La "morphologie du nuage" et la répartition des points sur chacun de ces axes d'inertie permettent alors, de rendre lisible et hiérarchisée l'information contenue dans le tableau. Mathématiquement, après avoir centré et diminué le tableau de données qu'on a affecté d'un dispositif de masse (par exemple, les sommes marginales de chaque ligne), on calcule la matrice d'inertie associée et on la diagonalise (la répartition de l'information selon les différents axes est représentée par l'histogramme des valeurs propres). On effectue alors un changement de base selon ses vecteurs propres, c'est-à-dire selon les axes principaux d'inertie du nuage de points. On projette alors les points figurant chaque ligne sur les nouveaux axes. La totalité de l'information est conservée, mais celle-ci est désormais hiérarchisée, axe d'inertie par axe d'inertie. L'histogramme des valeurs propres sert à voir le type de répartition de l'information entre les différents axes et l'étendue en dimension de celle-ci.

Le premier axe d'inertie oppose les points, c'est-à-dire les lignes du tableau ayant les plus longues distances ou "différences". La première valeur propre d'inertie, (associée à ce premier axe) mesure la quantité d'information présente le long de cet axe, c'est-à-dire dans cette opposition. On analyse ainsi les différents axes, en reconstituant progressivement la totalité des données.

Plusieurs méthodes d'analyse des correspondances existent, qui changent par le type de représentation de l'information, c'est-à-dire de métrique, ou de dispositif de masse qu'elles utilisent.

L'analyse factorielle des correspondances AFC développée par Jean-Paul Benzecri et ses collaborateurs emploie la métrique du chi-deux : chaque ligne est affectée d'une masse qui est sa somme marginale, le tableau étudié est le tableau des profils des lignes, ce qui sert à représenter dans le même espace à la fois les deux nuages de points associés aux lignes ainsi qu'aux colonnes du tableau de données ; elle est d'autre part particulièrement agréablement complétée par des outils de classification ascendante hiérarchique (CAH) qui permettent d'apporter des visions complémentaires, surtout en construisant des arbres de classification des lignes ou des colonnes.

Pour chaque point représentatif des lignes ou des colonnes du tableau de données, nouvel axe par nouvel axe, on s'intéresse à ses nouvelles coordonnées, au cosinus carré de l'angle avec l'axe (ce qui est équivalent à un cœfficient de corrélation), ainsi qu'à sa contribution à l'inertie expliquée par l'axe (c'est-à-dire à sa contribution à la création de l'axe).

Deux contraintes spécifiques sur les données sont à signaler : d'une part, les tableaux ne peuvent comporter de cases vides et d'autre part, seules des valeurs positives sont permises. Qui plus est , compte tenu de la métrique du chi-deux employée par l'AFC, cette méthode accorde une importance plus grande aux lignes de somme marginale élevée. Si nous utilisons des tableaux quantitatifs et souhaitons équilibrer la contribution de chaque ligne au calcul de l'inertie, nous devons transformer le tableau pour assurer à chaque ligne une somme marginale égale. Pour ce faire, on peut dédoubler chaque ligne, en lui adjoignant un tableau de complément. A chaque valeur fij, on fait correspondre une valeur dédoublée k-fij, avec k>=max (fij).

Par l'AFC, il est tout autant envisageable d'analyser des tableaux contenant des mesures quantitatives que des indications qualitatives, (par exemple une donnée "couleur"), ces deux types ne pouvant être mélangés. Un cas spécifique de la seconde catégorie de tableau est constituée par les tableaux "disjonctifs" ; plusieurs variables forment les colonnes : elles sont toutes découpées en plusieurs modalités, dont une et une seule est vraie par individu. Lors d'une analyse factorielle, on peut rajouter des données "supplémentaires", c'est-à-dire qu'on ne fait pas intervenir dans le calcul de l'inertie, mais qu'on projette sur les axes.

Exemple d'application

A titre d'exemple, on a demandé à un ensemble d'électeurs leur département et leur vote à l'élection présidentielle. Il est commode de regrouper ces données dans un tableau de contingence. Supposons qu'il y a I candidats et J départements :

M=\begin{bmatrix}
n_{1,1} & n_{1,2} & \cdots & n_{1,J}\\
n_{2,1} & n_{2,2} & \cdots & n_{2,J}\\
\vdots & \vdots & \ddots & \vdots\\
n_{I,1} & n_{I,2} & \cdots & n_{I,J}\\
\end{bmatrix}
ni, j représente le nombre de personnes ayant voté pour le candidat i dans le département j.

Souvent, on utilise la fréquence remplaçant le nombre de personnes.

f_{i,j}=\frac{n_{i,j}}{\sum_{i,j} n_{i,j}},
M=\begin{bmatrix}
f_{1,1} & f_{1,2} & \cdots & f_{1,J}\\
f_{2,1} & f_{2,2} & \cdots & f_{2,J}\\
\vdots & \vdots & \ddots & \vdots\\
f_{I,1} & f_{I,2} & \cdots & f_{I,J}\\
\end{bmatrix}

On note

f_{i,\cdot}=\sum_{j} f_{i,j}
,
f_{\cdot,j}=\sum_{i} f_{i,j}
,

respectivement les profils-lignes et les profils-colonnes.

Un tel tableau est constitué dans la perspective de l'étude de la liaison entre deux variables catégorielles : Quels sont les candidats "préférés" dans un département ?

La distance χ2

Etudier la liaison entre deux variables qualitatives revient à étudier l'écart entre les données observées et une situation théorique d'indépendance. Cette situation théorique correspond au tableau :\tilde{f}_{i,j}

\tilde{f}_{i,j}=f_{i,\cdot}f_{\cdot,j}

Si le tableau des données vérifie la relation d'indépendance \tilde{f}_{i,j}=f_{i,j}, alors l'ensemble des profils-lignes d'une part et l'ensemble des profils-colonnes d'autre part sont égaux au profil moyen correspondant.

L'écart à l'indépendance est pris en compte en considérant le tableau X de terme général :

x_{i,j}=\frac{f_{i,j}}{f_{i,\cdot}f_{\cdot,j}}-1,

On peut tester l'hypothèse d'indépendance par le test χ2 (prononcé "Ki-2")

\chiˆ2=n\sum_{i,j}\frac{(f_{i;j}-\tilde{f}_{i,j})ˆ2}{\tilde{f}_{i,j}}=n\sum_{i,j} \,\tilde{f}_{i,j} \,x_{i,j}ˆ2,

Cette statistique vaut 0 ou proche 0 si les données observées vérifient le modèle d'indépendance. Mais cette statisque ne répond pas aux questions suivantes :

Pour répondre à ces questions, on rappelle que l'analyse en composantes principales (ACP) peut diminuer la dimension des problèmes et sélectionner les effets principaux. Mais une métrique spéciale est adaptée-la métrique du χ2. Dans ce sens, l'AFC peut être reconnue comme une ACP spécifique pourvue de la métrique du χ2 qui ne dépend que du profil des colonnes du tableau.

Considérons le tableau X, chaque ligne peut être reconnu comme un point dans l'espace de dimension J, noté  \Bbb{R}ˆJ , dont chaque dimension est associée à une colonne du tableau X. On affecte à la ligne i un poids proportionnel à son effectif soit f_{i,\cdot}. Le centre de gravité est confondu avec l'origine des axes :

\sum_{i}f_{i,\cdot}x_{i,j}=0

La distance χ2 est définie comme (to be continued)

Extension

La technique de l'AFC est parfois utilisée pour des tableaux d'un autre type que tableau de contingence. Par contre, son utilisation pour ces tableaux oblige toujours à des adaptations spécifiques au type de tableau. On peut utiliser l'AFC sur des tableaux :

  • logiques
  • logiques dédoublés
  • de notes d'intensité
  • de rang
  • de mesure
  • qualitatifs

Quand on utilise l'AFC sur des tableaux disjonctifs complet ou de Burt , on utilise en réalité la méthode de l'analyse des correspondantes multiples (ACM).

Bibliographie

Voir aussi

Liens externes

Recherche sur Amazone (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Analyse_factorielle_des_correspondances.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu