Analyse discriminante

L'analyse factorielle discriminante ou analyse discriminante est une technique statistique qui vise à décrire, expliquer et prédire l'appartenance à des groupes prédéfinis d'un ensemble d'observations à partir d'une série de variables prédictives.



Catégories :

Analyse des données - Statistiques

Recherche sur Google Images :


Source image : isranews.com
Cette image est un résultat de recherche de Google Image. Elle est peut-être réduite par rapport à l'originale et/ou protégée par des droits d'auteur.

Page(s) en rapport avec ce sujet :

  • deux groupes d'observations. Cette droite est une combinaison linéaire des variables.... Analyse discriminante linéaire sur les axes factoriels.... (source : od-datamining)
  • Au contraire de l'analyse discriminante prédictive, cette analyse... scindé au mieux en k sous- groupes déjà identifiés par des axes orthogonaux entre eux, ... (source : jybaudot)
  • La distance de Mahalanobis entre les 2 groupes est utilisée à cette fin.... e) Analyse discriminante factorielle. La matrice Tq-1 Bq décrite sous 3. c... propres de cette matrice forment les deux axes factoriels discriminants.... (source : unesco)

L'analyse factorielle discriminante ou analyse discriminante est une technique statistique qui vise à décrire, expliquer et prédire l'appartenance à des groupes prédéfinis (classes, modalités de la variable à prédire, ... ) d'un ensemble d'observations (individus, exemples, ... ) à partir d'une série de variables prédictives (descripteurs, variables exogènes, ... ).

L'analyse discriminante est utilisée dans de nombreux domaines :

L'analyse discriminante est une technique connue et reconnue, elle est décrite environ de manière semblable par les différentes communautés du traitement de données : en statistique exploratoire (exploratory data analysis), en analyse de données, en reconnaissance de formes (pattern recognition), en apprentissage automatique (machine learning), en fouille de données (data mining), ...

Tableau de données

Dans le fichier Flea Beetles Dataset, référencé sur le site DASL (Data and Story Library), nous observons 3 familles de puces caractérisées par l'angle et la largeur de leur ædeagus, leur organe de reproduction.

Nous disposons de 74 observations dans ce fichier. La variable Species indique la famille d'appartenance de chaque puce, il en existe 3 {Con – Concinna, Hei – Heikertingeri, Hep - Heptapotamica}. Les puces sont décrites avec deux variables continues : la largeur (width) et l'angle (angle) de leur ædeagus.

Les données étant décrites par deux variables, il est envisageable de représenter le nuage de points dans un graphique XY avec en abscisse la largeur (width) et en ordonnée l'angle (angle). Ça n'est plus envisageable quand le nombre de descripteurs est supérieur à deux, un des rôles de l'analyse discriminante est précisément de proposer une représentation graphique appropriée dans un espace réduit.

Flea beetles analyse discriminante.jpg

Nous distinguons bien les trois «blocs» associés à chaque espèce de puce. À chaque nuage de points conditionnel correspond un centre de gravité conditionnel matérialisé par la lettre G.

Des approches différentes selon les objectifs

On peut distinguer le plus souvent deux grandes approches :

La distinction entre ces deux approches n'est pas aussi tranchée. Il est par exemple envisageable de dériver des règles géométriques d'affectation à partir de l'analyse factorielle discriminante.

L'analyse discriminante descriptive (analyse factorielle discriminante, canonical discriminant analysis en anglais) est une technique de statistique exploratoire qui travaille sur un ensemble de n\, observations décrites par J\, variables, répartis en K\, groupes. Elle vise à produire un nouveau dispositif de représentation, constitué de combinaisons linéaires des variables initiales, qui sert à séparer au mieux les K\, catégories.

Au contraire de l'analyse discriminante prédictive, elle ne repose sur aucune hypothèse probabiliste. Il s'agit principalement d'une méthode géométrique.

Notations - Formulations

Données et notations

Nous disposons d'un échantillon de n\, observations réparties dans K\, groupes d'effectifs n_k\,.

Notons Y\, la variable définissant les groupes, elle prend ses valeurs dans \{y_1,...,y_K\}\,. Nous disposons de J\, variables X = (X_1,...,X_J)\,.

Nous notons \mu_k\, les centres de gravité des nuages de points conditionnels, W_k\, leurs matrice de variance-covariance.

Démarche

L'objectif de l'analyse discriminante est de produire un nouvel espace de représentation qui sert à distinguer le mieux les K groupes. La démarche consiste à produire une suite de variables discriminantes Z_h\,, non-corrélés deux à deux, tels que des individus du même groupe projetés sur ces axes soient le plus proches envisageables les uns des autres, et que des individus de groupes différents soient le plus éloignés envisageables.

Le premier axe factoriel sera par conséquent défini par le vecteur directeur u_1\, tel qu'on maximise la quantité \frac{u_1'Bu_1}{u_1'Vu_1}\,. La variance inter-classes sur ce premier axe factoriel Z_1\, sera maximum.

Solution

La solution de ce problème d'optimisation linéaire passe par la résolution de l'équation Vˆ{-1}B u=\lambda u\,. La réponse nous est directement apportée par le calcul des valeurs propres et vecteurs propres de la matrice Vˆ{-1}B\,.

Évaluation

L'évaluation se situe à deux niveaux : évaluer le pouvoir discriminant d'un axe factoriel ; évaluer le pouvoir discriminant d'un ensemble d'axes factoriels. L'idée sous-jacente est de pouvoir déterminer le nombre d'axes suffisants pour distinguer les groupes d'observations dans le nouveau dispositif de représentation.

Évidemment, ces évaluations n'ont de sens que si les groupes sont discernables dans l'espace de représentation d'origine. Il nous faut par conséquent, tout d'abord, apprécier dans quelle mesure les centres de gravité des groupes sont différents. En d'autres termes, il s'agit de vérifier si la part de B dans l'équation V = B + W est assez importante pour que cela vaille la peine de la décomposer ensuite.

Test MANOVA

Le test global ressemble à une analyse de variance multivariée à un facteur. Dans ce cadre, nous introduisons l'hypothèse que les observations suivent une loi normale multidimensionnelle. Nous retrouvons aussi ce test dans l'analyse discriminante prédictive (analyse discriminante linéaire). La statistique du test est le Lambda de Wilks qui est égal au rapport \Lambda = \frac{|W|}{|V|}\, (| | sert à désigner le déterminant de la matrice). En utilisant la transformation de Rao qui suit une loi de Fisher, nous pouvons déterminer si nous devons accepter ou réfuter l'hypothèse d'égalité des centres de gravité de groupes.

Proportion de variance expliquée

Chaque axe rapporte une partie de la variance inter-classes B. Une approche simple pour apprécier l'importance d'un axe est de calculer la part de variance expliquée qu'elle porte, traduite par la valeur propre. La proportion de valeur propre, c. -à-d. le rapport entre la valeur propre de l'axe et la somme totale des valeurs propres de la totalité des axes, nous donne une bonne indication sur le rôle d'un axe.

Rapport de Corrélation

Une autre manière de rapporter l'importance d'un axe est de calculer le rapport de corrélation. Il s'appuie sur la formule de décomposition de la variance. Pour un axe factoriel Z\,, il est égal au ratio \eta(Z,Y)=\frac{\sum_k n_k (\bar{z}_{k}-\bar{z})ˆ2}{\sum_k \sum_i (z_{ik}-\bar{z})ˆ2}\, (la somme des carrés inter-groupes divisé par la somme des carrés totale, i\, représente une observation).

Un axe sera d'autant plus intéressant qu'il présente un rapport de corrélation élevé. Dans les logiciels anglo-saxons, la racine carrée du rapport de corrélation de l'axe Z_h\, est nommée la h-ème corrélation canonique.

Test des racines successives

En introduisant de nouveau l'hypothèse de multinormalité et d'homoscédasticité (voir analyse discriminante prédictive), nous pouvons tester la nullité des q\, derniers rapports de corrélation. Le test repose sur la statistique de Wilks \Lambda_q=\prod_{h=K-q}ˆ{K-1}(1-\eta(Z_h,Y)ˆ2)\,. L'hypothèse nulle (nullité des q\, rapports de corrélation) est infirmée pour les petites valeurs de \Lambda_q\,.

Tout comme pour le test global, une transformation est mise en œuvre pour retomber sur des lois de distribution d'usage courant. La transformation de Bartlett est fréquemment proposée dans les logiciels. Elle suit une loi du Khi-2 à [q \times (J-K+q+1)]\, degrés de liberté. L'hypothèse nulle est rejetée si la probabilité critique calculée est inférieure au risque de première espèce (niveau de confiance) qu'on s'est fixé.

Nous retombons sur le test MANOVA global ci-dessus (Lambda de Wilks) si nous testons la nullité des rapports de corrélation sur l'ensemble des (K-1)\, axes factoriels. En d'autres termes, \Lambda=\Lambda_{K-1}\,, ce qui est particulièrement naturel puisque cela revient à tester l'ensemble des axes.

Un exemple

Le fameux fichier IRIS permet d'illustrer la méthode. Il a été proposé et utilisé par Fisher lui-même pour illustrer l'analyse discriminante. Il comporte 150 fleurs décrites par 4 variables (longueur et largeur des pétales et sépales) et regroupées en 3 catégories (Setosa, Versicolor et Virginica).

L'objectif est de produire un plan factoriel (3 catégories ⇒ 2 axes) servant à distinguer au mieux ces catégories, puis d'expliquer leurs positionnements respectifs.

Axes factoriels

Le calcul produit les résultats suivants.

Axe Val. propre Proportion Canonical R Wilks KHI-2 D. D. L. p-value
1 32.272 0.991 0.985 0.024 545.58 8 0.0
2 0.277 1.0 0.466 0.783 35.6 3 0.0

Les deux axes sont globalement significatifs. En effet, le lambda de Wilks de nullité des deux axes est égal à 0.023525 (\Lambda = \Lambda_2\, ici). Le KHI-2 de Bartlett est égal à 545.57, avec un degré de liberté égal à (2 x (4-3+2+1) ) = 8, il est particulièrement hautement significatif (p-value particulièrement petite).

Nous constatons néanmoins que le premier axe traduit 99, 1% de la variance expliquée. Nous pouvons légitimement nous demander si le second axe est pertinent pour la discrimination des groupes. Il suffit pour cela de tester la nullité du dernier axe (\Lambda_1\,). Le lambda est plus élevé (0.78), ce qui se traduit par un KHI-2 plus faible (35.64) à (1 x (4-3+1+1) ) = 3 degrés de liberté, il reste néanmoins significatif si on se fixe un niveau de confiance à 5%.

Partant de ce résultat, nous serions amenés à conserver les deux axes. Nous verrons plus bas que ce résultat est à relativiser.

Représentation graphique

En projetant les points dans le plan factoriel, nous obtenons le positionnement suivant.

Nous distinguons bien les trois catégories de fleurs. Nous constatons aussi que le premier axe permet déjà de les isoler convenablement. Sur le second axe, même si les centres de gravité des groupes semblent différents, la différenciation n'est pas aussi tranchée.

Nous retrouvons bien dans ce graphique ce qu'on pressentait avec la proportion de variance expliquée. Le premier axe suffit beaucoup pour discriminer les groupes. Le second axe, même s'il est statistiquement significatif, n'apporte pas un réel complément d'informations.

Fréquemment, les techniques visuelles emmènent un contrepoint particulièrement pertinent aux résultats numériques bruts.

Projection des individus supplémentaires

Pour projeter des observations supplémentaires dans le plan factoriel, les logiciels fournissent les équations des fonctions discriminantes. Il suffit de les appliquer sur la description de l'individu à classer pour obtenir ses coordonnées dans le nouveau repère.

Dans l'exemple IRIS, nous obtenons les cœfficients suivants.

Variables Axe 1 Axe 2
Sepal Length -0.819 -0.033
Sepal Width -1.548 -2.155
Petal Length 2.185 0.930
Petal Width 2.854 -2.806
Constante -2.119 6.640

Interprétation des axes

Dernier point, et non des moindres, il nous faut comprendre le positionnement relatif des groupes, c. -à-d. expliquer avec variables initiales l'appartenance aux catégories.

Pour cela, à l'instar des techniques factorielles telles que l'analyse en composantes principales (ACP) -- l'analyse factorielle discriminante peut être vue comme un cas spécifique de l'ACP d'ailleurs -- les logiciels fournissent la matrice de corrélation. À la différence de l'ACP, trois types de corrélations peuvent être produits : la corrélation globale entre les axes et les variables initiales ; la corrélation intra-classes, calculée au sein des groupes ; la corrélation inter-classes calculée à partir des centres de gravité des groupes pondérés par leurs fréquences.

Dans l'exemple IRIS, si nous nous en tenons au premier axe, nous obtenons les corrélations suivantes.

Variables Total Intra-groupes Inter-groupes
Sep Length 0.792 0.222 0.992
Sep Width -0.523 -0.116 -0.822
Pet Length 0.985 0.705 1.000
Pet Width 0.973 0.632 0.994

La corrélation inter-classes qui traduit le positionnement des groupes sur les axes indique ici que les Virginica ont plutôt des longueurs de sépales, des longueurs et des largeurs de pétales importantes. Les Setosa possèdent à l'inverse des longueurs de sépales, des longueurs et des largeurs de pétales réduites. Les Versicolor occupent une position intermédiaire.

La lecture est inversée concernant la largeur des sépales.

Références

Logiciels

Recherche sur Amazone (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Analyse_discriminante.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu