Exploration de données

L'exploration de données, aussi connue sous les noms fouille de données, data mining ou encore Extraction de Connaissances à partir de Données, a pour objet l'extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données,...



Catégories :

Ingénierie décisionnelle - Exploration de données - Statistiques

Recherche sur Google Images :


Source image : cool-raoul.blogspot.com
Cette image est un résultat de recherche de Google Image. Elle est peut-être réduite par rapport à l'originale et/ou protégée par des droits d'auteur.

Définitions :

  • data mining Le processus d'analyse d'importants volumes de données en utilisant la reconnaissance des formes ou des techniques de ... (source : tbs-sct.gc)
  • Technique d'analyse servant à trouver des corrélations cachées et des tendances à partir d'une grande quantité de données. (source : francedecision)

L'exploration de données (terme recommandé en France par la DGLFLF[1], et au Canada par l'OQLF), aussi connue sous les noms fouille de données, data mining (forage de données) ou encore Extraction de Connaissances à partir de Données (ECD en français, KDD en Anglais), a pour objet l'extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques. L'utilisation industrielle ou opérationnelle de ce savoir dans le monde professionnel sert à résoudre des problématiques particulièrement diverses, allant de la gestion de relation client à la maintenance préventive, en passant par la détection de fraudes ou encore l'optimisation de sites web.

Définition générale

Le data mining est un processus d'extraction de connaissances valides et exploitables à partir de grands volumes de données.

Il a vocation à être utilisé dans un environnement professionnel et se distingue de l'analyse de données et de la statistique par les points suivants :

Le data mining se propose de transformer en information, ou en connaissance, de grands volumes de données qui peuvent être stockés de manière diverse, dans des bases de données relationnelles, dans un (ou plusieurs) entrepôt de données (datawarehouse), mais qui peuvent aussi être récupérées de sources riches plus ou moins structurées comme internet, ou encore en temps réel (sollicitation d'un centre d'appel, retrait d'argent dans un distributeur à billets... ).

Quand la source n'est pas directement un entrepôt de données, il s'agit fréquemment de construire une base de données ou un datamart dédié à l'analyse ainsi qu'aux analystes. Cela suppose d'avoir à sa disposition une palette d'outils de gestion de données (data management). On peut aussi structurer les données de l'entrepôt sous forme d'un hypercube OLAP, même si cela est assez rare en matière de data mining.

Exemples d'applications

On peut relever parmi les utilisations du data mining les exemples suivants :

Les outils de text mining (fouille de textes) associent en complément aux principes du data mining, l'analyse lexicographique et/ou linguistique multilingue des données non structurées comme les courriels, les réponses à des questionnaires ou à des enquêtes, les réclamations clients, les blogs Internet, les news en ligne, les tchats… en tentant de déterminer par exemple le degré de satisfaction (ou d'insatisfaction) de la clientèle. Ses applications les plus rudimentaires sont la lutte contre le spam, ou pourriel, mais aussi l'analyse de contenu. De plus ambitieuses concernent l'évaluation par analyse de dépêches de presse, de l'image d'une société, d'un climat politique ou boursier, ou la catégorisation automatique d'informations.

Principe et spécificité

Principe

Le data mining est un processus d'analyse dont l'approche est différente de celle utilisée en statistique. Cette dernière présuppose généralement qu'on se fixe une hypothèse que les données permettent ou non de confirmer. Au contraire, le data mining adopte une démarche sans a priori (approche pragmatique) et essaie ainsi de faire émerger, à partir des données brutes, des inférences que l'expérimentateur peut ne pas soupçonner (sérendipité), et dont il aura peut-être à valider la pertinence.

Le data mining tente alors de réaliser un arbitrage entre validité scientifique, interprétabilité des résultats et facilité d'utilisation, dans un environnement professionnel où le temps d'étude joue un rôle majeur et où les analystes ne sont pas forcément des statisticiens.

Le data mining est un processus

Plus qu'une théorie normalisée, le data mining est un processus d'extraction de connaissances métiers comportant les étapes principales suivantes :

Ce processus est cyclique et permanent; le data mining rend par conséquent plus compréhensible, "visible", l'activité de l'organisation, et sert à rationaliser le stockage de l'information et des données. Le data mining ne consiste pas en une succession d'études ad hoc mais a pour objectif de capitaliser des connaissances acquises sous forme de connaissances explicites.

Il conduit par conséquent à mieux structurer les contenus nécessaires à l'ingénierie des connaissances. C'est sa principale raison d'être ; on peut comparer de façon lointaine cette activité à celle de conceptualisation au cours de l'apprentissage humain : «Une bonne compréhension est intimement liée à une bonne compression» explique Donald Knuth[2], l'une comme l'autre utilisant une connaissance de corrélations pour représenter - et par conséquent manier - l'information sous forme plus concise.

Méthode

Le data mining se propose d'utiliser un ensemble d'algorithmes (voir infra) issus de disciplines scientifiques diverses (statistiques, intelligence artificielle, base de données) pour construire des modèles à partir des données, c'est-à-dire trouver des schémas «intéressants» (des patterns ou motifs en français) selon des critères fixés au départ, et extraire de ces données un maximum de connaissances utiles à l'entreprise.

Voir par exemple les articles :

Anecdotes

Les premiers essais de fouilles de données se firent historiquement sur des dépouillements de millions de tickets de caisse de supermarché tels que mémorisés par les caisses enregistreuses.

Au départ de la vulgarisation des méthodes et des algorithmes de la fouille de données (en l'occurrence, l'analyse des associations), il y aurait eu la mise en évidence par les magasins Wal-Mart d'une corrélation particulièrement forte entre l'achat de couches pour bébés et de bière le samedi après-midi[3]. Les analystes s'aperçurent tandis qu'il s'agissait des messieurs envoyés au magasin par leur compagne pour acheter les volumineux paquets de couches pour bébé. Les rayons furent par conséquent réorganisés pour présenter côte à côte les couches et les packs de bière... dont les ventes grimpèrent en flèche ! Cette image plus ou moins véridique illustre le retour sur investissement (ROI) des travaux de data mining et d'une façon plus générale d'informatique décisionnelle.

D'autres analyses, surtout d'indices précurseurs de modification des habitudes d'achat, se montrèrent d'un plus grand intérêt dans la pratique.

Un autre exemple fréquemment cité est le suivant : si on baisse le prix du Coca-Cola de 5%, on va par exemple en augmenter les ventes de 15%, ce qu'on savait sans data mining. Mais le data mining révèle l'élément inattendu (bien qu'évident a posteriori), à savoir que les ventes des cacahuètes vont augmenter dans une proportion voisine (probablement suite à l'association d'idées : «Puisque j'achète du Coca, il me faut aussi des cacahuètes» ; le data mining ne fait pas d'hypothèse sur le sujet). Si la marge sur le Coca-Cola est assez faible, et celle sur les cacahuètes importante, la conclusion s'impose d'elle-même : baisser le prix du Coca-Cola est un moyen de vendre davantage de cacahuètes.

Par le côté quasi-déterministe qu'elle présente du comportement du consommateur, cette approche provoque fréquemment une réaction de scepticisme, mais tant que les résultats de sa mise en œuvre sont au rendez-vous, ce qui est parfois le cas, son adoption ne pose ensuite pas de problème spécifique.

Algorithmes

Résoudre une problématique avec un processus de data mining impose le plus souvent l'utilisation de la plupart de méthodes et algorithmes différents. On peut distinguer 3 grandes familles d'algorithmes :

Les méthodes non-supervisées

Elles permettent de travailler sur un ensemble de données dans lequel aucune des données ou des variables à disposition n'a d'importance spécifique comparé aux autres, c'est-à-dire un ensemble de données dans lequel aucune variable n'est reconnue individuellement comme la cible, l'objectif de l'analyse. On les utilise par exemple pour dégager d'un ensemble d'individus des groupes homogènes (typologie), pour construire des normes de comportements et par conséquent des déviations comparé à ces normes (détection de fraudes nouvelles ou inconnues à la carte bancaire, à l'assurance maladie... ), pour réaliser de la compression d'informations (compression d'image)...

Voici une liste non exhaustive des techniques disponibles :

Les méthodes supervisées

Leur raison d'être est d'expliquer et/ou de prévoir un ou plusieurs phénomènes observables et effectivement mesurés. Concrètement, elles vont s'intéresser à une ou plusieurs variables de la base de données définies comme étant les cibles de l'analyse. A titre d'exemple, on utilisera ce type de méthode quand on cherchera à comprendre pourquoi un individu a acquis un produit plutôt qu'un autre, pourquoi un individu a répondu favorablement à une opération de marketing direct, pourquoi un individu a contracté une maladie spécifique, pourquoi un individu a visité une page d'un site web de manière répétée, pourquoi la durée de vie après la contraction d'une maladie fluctue selon les malades... Voici une liste non exhaustive des techniques disponibles :

Les méthodes de réduction de données

Elles permettent de diminuer un ensemble de données volumineux à un ensemble de taille plus réduite, épuré de ce qu'on considérera comme de l'information non pertinente ou non signifiante, comme du bruit. Elles sont ainsi fréquemment, mais pas toujours, utilisées en amont des techniques supervisées ou non supervisées. Elles sont surtout particulièrement complémentaires des techniques non supervisées classiquement utilisées dans le domaine de la statistique.

Pourquoi tant d'algorithmes ?

Parce que nous venons de voir qu'ils n'ont pas tous le même objet, parce qu'aucun n'est optimal dans l'ensemble des cas, parce qu'ils s'avèrent en pratique complémentaires les uns des autres et parce qu'en les combinant intelligemment (en construisant ce qu'on nomme des modèles de modèles ou métamodèles) il est envisageable d'obtenir des gains de performance particulièrement significatifs, si on prend bien garde d'éviter des problèmes de sur-ajustement des modèles ainsi obtenus (voir à ce sujet l'article Arbre de décision et son paragraphe traitant du problème de sur-ajustement des modèles). Toujours faut-il être en mesure de réaliser ces combinaisons aisément, ce que permettent les logiciels ateliers de Data Mining, par opposition aux outils de statistiques classiques dans lesquels l'opération est bien plus délicate en pratique.

Chercher d'autres algorithmes, ou bien enrichir les données ?

L'université de Stanford a mis en concurrence à sa rentrée d'automne 2007 deux équipes sur le projet suivant : en s'appuyant sur la base de films visualisés par chaque client d'un réseau de distribution (abonnement avec carte magnétique) déterminer l'audience la plus probable d'un film qui n'a pas encore été vu. Une équipe s'est orientée sur une recherche d'algorithme extrêmement fin à partir des informations de la base, une autre au contraire a pris des algorithmes extrêmement simples, mais a combiné la base apportée par le distributeur au contenu de l'Internet Movie Database (IMDB) pour enrichir ses informations. La seconde équipe a obtenu des résultats nettement plus précis. Un article écrit à ce sujet suggère que de la même façon l'efficacité de Google tient bien moins à son algorithme de page rank qu'à la très grande quantité d'information que Google peut corréler par croisement des historiques de requête, de la correspondance et du comportement de navigation sur ses sites de ses utilisateurs. (lien vers l'article en instance)

Voir aussi

Références

  1. Journal officiel du 27/02/2003, voir FranceTerme
  2. «good comprehension is closely related to good compression», The Art of Computer Programming, Wiley
  3. Voir l'article sur le Datamining de ZDNet du 27 novembre 2005

Bibliographie

Recherche sur Amazone (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Exploration_de_donn%C3%A9es.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu