Statistique descriptive

La statistique descriptive est la branche des statistiques qui regroupe les nombreuses techniques utilisées pour décrire un ensemble assez important de données.



Catégories :

Statistiques - Statistique descriptive

Recherche sur Google Images :


Source image : xlstat.com
Cette image est un résultat de recherche de Google Image. Elle est peut-être réduite par rapport à l'originale et/ou protégée par des droits d'auteur.

Page(s) en rapport avec ce sujet :

  • C'est comme ça qu'est née la notion de statistique descriptive.... de la distribution d'une variable statistique qu'on nomme couramment la... Le mode : représente la valeur la plus fréquente de la distribution numérique (si... (source : tecfa.unige)
  • DESCRIPTIVE. 1. MÉTHODE STATISTIQUE. 1.1. HISTORIQUE ET DÉFINITION.... Quand x sert à désigner la variable statistique, la valeur moyenne, ou moyenne de la série... (source : math.u-psud)

La statistique descriptive est la branche des statistiques qui regroupe les nombreuses techniques utilisées pour décrire un ensemble assez important de données.

L'objectif de la statistique descriptive est de décrire, c'est-à-dire de résumer ou représenter, par des statistiques, les données disponibles lorsqu'elle s sont nombreuses.

Les données disponibles

Toute description d'un phénomène nécessite d'observer ou de connaître certaines choses sur ce phénomène.

Il est assez compliqué de définir la meilleure description envisageable d'un phénomène. Dans le cadre des statistiques, il s'agira d'apporter toute l'information disponible sur le phénomène en moins de chiffres et de mots envisageables.

Typiquement, la loi des gaz parfaits est une très bonne description du phénomène constitué du comportement d'un gaz en état d'équilibre dont on n'observe que la pression, la température et le volume. La valeur de la constante R peut alors être vue comme une statistique associée à cette description.

La question de la description visuelle se pose aussi, mais nous la mettrons provisoirement de côté. L'article Visualisation des données y répond plus directement.

Point de vue statistique

Le point de vue statistique sur la description d'un phénomène provient de ce qu'on considère que les observations disponibles sont différentes manifestations du même phénomène abstrait. Pour rester sur l'exemple de la température, la pression et la densité mesurées en plusieurs instants, on va considérer qu'à chaque fois qu'on prend ces trois mesures, on observe le même phénomène. Les mesures ne seront pas précisément les mêmes ; c'est la répartition de ces mesures que nous allons décrire statistiquement.

Exemples

Grandeurs physiques

Diagramme de phase de l'eau.

Si on mesure de temps en temps la pression, la température et la densité d'un gaz présent dans une cuve, on obtient une collection de triplets de données, indexés par l'instant de mesure.

Grandeurs comportementales ou biologiques

Dans le domaine médical, on peut par exemple mesurer le poids avant et après la prise d'un médicament pour plusieurs personnes. On obtient alors une collection de couples de données (poids avant et après) indexés par le nom de la personne.

En sociologie ou en marketing on peut mesurer le nombre de livres lus par an pour de nombreuses personnes, dont on connait d'autre part l'âge et le niveau d'étude. Ici aussi on obtient une collection de triplets de données, indexés par le nom du lecteur.

Formalisation des cas pratiques

Les différentes grandeurs mesurées sont nommées des variables.

L'étude statistique nécessite qu'on prenne comme hypothèse qu'il existe un phénomène abstrait plus ou moins caché qui met en œuvre ces variables (et peut être d'autres).

Chaque valeur l'index (qui peut être une date, ou un numéro identifiant un individu), identifie alors une photographie partielle du phénomène. On nomme les valeurs des variables pour un indice donné des observations ou une réalisation du phénomène.

D'un point de vue formel, on pose le principe que le phénomène abstrait peut comporter des éléments déterministes comme des éléments aléatoires (on dit aussi stochastiques). La totalité des variables observées sont alors superposées sous la forme d'un vecteur de données. Il n'y a plus tandis qu'une seule variable (mais qui est multi variée).

Les observations sont alors bien des réalisations (au sens des statistiques mathématiques) de cette variable aléatoire multi variée.

Étude d'une seule variable

Commençons par la situation la plus simple : celle de l'observation d'une seule variable (par exemple la pression dans une cuve, ou bien le nombre de livres lus par an pour une personne). Comme nous l'avons vu plus haut, nous prenons comme hypothèse qu'il existe un phénomène dont cette variable fait partie, que ce phénomène est peut être en partie aléatoire. Cette partie aléatoire implique que la variable observée est issue d'une variable abstraite soumise en partie à un aléa inconnu.

Les observations dont nous disposons sont alors des réalisations de cette variable aléatoire abstraite.

L'objectif des statistiques descriptives dans ce cadre est de résumer au mieux cette collection de valeurs en prenant peut-être appui sur notre hypothèse (l'existence d'une loi aléatoire abstraite derrière tout cela).

Une première remarque est que la meilleure description envisageable d'un phénomène à partir d'une collection d'observations est la collection elle-même! En effet, pourquoi se compliquer la vie à calculer de nombreux indicateurs tandis que tout est là?

En premier lieu, cette remarque est loin d'être stupide, et d'un certain point de vue, on retrouve cette philosophie derrière les Statistiques non paramétriques.

Mais en second lieu, on voit quoiqu'il est intéressant de résumer ces observations. La question importante devient alors : comment les résumer sans détruire l'information qu'elle contient?

Exemple simple

Si nos observations sont le succès ou l'échec de 23 sportifs à une épreuve de saut en hauteur. Il s'agira d'une série de "succès" (S), "échec" (E) indexé par le nom du sportif. Voici les données :

S, S, E, E, E, S, E, S, S, S, E, E, S, E, S, E, S, S, S, S, E, E, S
Une sauteuse en 1928.

Sans réfléchir et en utilisant des critères statistiques, nous pouvons décider de décrire ce phénomène comme suit :

En attribuant un point à chacun des 23 sportifs quand il réussit son saut, et aucun quand il le rate, le nombre moyen de point gagné est 0, 5652 et l'écart type des points gagné est 0, 5069.

Il s'agit d'une description plutôt obscure, et on notera qu'elle comprend légèrement moins de 200 caractères, tandis que la liste des succès et échecs en compte moins de 50. Nous préfèrerons probablement celle-ci :

23 sportifs ont sauté, 13 d'entre eux ont réussi.

Cette description est simple, claire et courte (moins de 50 caractères).

Il est aussi particulièrement envisageable d'en faire une description qui détruit de l'information, par exemple celle-ci :

En attribuant un point à chaque sportif quand il réussit son saut, et aucun quand il le rate, le nombre moyen de point gagné est 0, 5652

En effet, il manque au moins le nombre de sauteurs, qui est un élément descriptif important.

Évidemment, si on cherche à décrire un phénomène spécifique, comme ce dernier si j'avais parié sur un des 23 sauteurs, quelles chances avais-je de gagner?, la réponse aurait été différente :

57%

bien plus courte, et ne détruisant aucune information au vu de la question. Il ne s'agissait plus alors de décrire les réalisations du phénomène sans point de vue spécifique, mais avec un angle bien précis. On décrit en réalité un autre phénomène (celui des paris).

Il est par conséquent très important de bien répondre à la question posée, et de ne pas appliquer des formules toutes faites sans réfléchir.

Intéressons-nous en dernier lieu à une autre question : Si je devais parier lors d'une prochaine épreuve de saut, quelles seraient mes chance de gain?.

Nous pourrions répondre 57%, comme pour la question précédente, mais après tout, nous n'avons observé que 23 sauteurs; est-ce suffisant pour en tirer une conclusion sur les performances d'autres sauteurs?

Afin d'apporter tout de même une réponse, précisons la principale hypothèse que nous allons utiliser :

Hypothèse : la nature des performances des sauteurs sera la même que celle observée.

Cela veut dire que si cette compétition était nationale, la seconde le sera aussi : on ne va pas utiliser des observations issues d'un phénomène de niveau national avec la même phénomène, mais de niveau olympique par exemple.

Et même dans ce cadre, si par exemple nous n'avions observé que 2 sauteurs, qui avaient tout deux réussi, cela voudrait-il dire que tous les sauteurs de niveau national réussissent toujours (c'est-à-dire que j'ai une chance de gain de 100%) ? Évidemment que non.

Nous devons alors recourir à la notion d'intervalle de confiance : l'objectif est de rendre compte de la taille de notre échantillon de sportifs, conjugué à certaines hypothèses probabilistes.

En l'occurrence, les statistiques mathématiques nous disent qu'un estimateur de proportion calculé à partir de N observations suit une loi normale de variance p (1 − p) / N autour de la proportion théorique p. Dans notre cas : N = 23 et p = 0, 57. Ceci nous apprend que sous notre hypothèse, il y a une probabilité de 95% que notre chance de gain soit entre 57%-1,96\sqrt{57% \times 43%/ 23} et 57%+1,96\sqrt{57% \times 43%/ 23}. La réponse est par conséquent finalement :

Il y a 95% de chances que la probabilité de gagner notre pari lors d'une rencontre identique soit comprise entre 36 et 77%

Éléments méthodologiques

Il existe finalement toute une collection de statistiques qu'on peut utiliser à des fins descriptives. Il s'agit de critères qui quantifient différentes caractéristiques de la distribution des observations :

Sans a priori sur la question qui nous est posée, nous pouvons passer en revue ces différents indicateurs descriptifs.

Sans aucun a priori sur la question qu'on se pose, quelques statistiques simples permettent de la décrire :

  • la moyenne ;
  • la médiane ;
  • le mode ;
  • le maximum ;
  • le minimum ;
  • l'écart type (et la variance)  ;
  • les quartiles.

Les deux premiers sont fréquemment appelés critères de position, et les autres entrent plutôt dans la catégorie des critères de dispersion.

La moyenne

Article détaillé : moyenne.

La moyenne arithmétique est la somme des valeurs de la variable divisée par le nombre d'individus : \bar{X} = \frac{1}{n} \cdot \sum_{i = 1}ˆn n_ix_i

La médiane

Article détaillé : Médiane (centre) .

La médiane est la valeur centrale qui partage l'échantillon en 2 groupes de même effectif : 50% au-dessus et 50% en dessous. La médiane peut avoir une valeur différente de la moyenne. En France, le salaire médian est inférieur au salaire moyen : il y a énormément de smicards et peu de gros salaires. Cependant, les gros salaires tirent la moyenne vers le haut.

En général, une médiane est , dans une série ordonnée, une valeur M telle qu'il y ait tout autant de valeurs supérieures ou identiques à M que de valeur inférieures ou identiques à M. exemple : 1 3 5 7 9 la médiane est 5

        5 5 6 6 8 8 la médiane est égale à (6+6)/2=6

Le mode

Article détaillé : Mode (statistique) .

Le mode correspond à la réalisation la plus fréquente.

Le mode d'une série, ou dominante d'une distribution, est la valeur de la variable (ou de l'unité statistique) qui revient généralement dans la série. C'est la valeur centrale de la classe qui a le plus grand effectif.

Ex : Soit la série {8, 4, 4, 3, 4, 3, 8, 2, 5} La valeur la plus fréquente de cette série est 4. Le mode est par conséquent égal à 4. L'effectif associé à ce mode est 3.

Il est l'indice le plus simple à déterminer dans la mesure où il suffit de lire un graphique ou de regarder le tableau des effectifs.

La Variance

La variance empirique corrigée \hat{\sigma}ˆ2 pour le carré de l'écart type (ou variance)  :\hat{\sigma}ˆ2 = \frac{1}{n-1} \cdot \sum_{i = 1}ˆn (x_i - \bar{X})ˆ2

Attention : la variance (notion de statistique descriptive) égale est la simple moyenne arithmétique des carrés des écarts à la moyenne arithmétique observée, mais la variance sans biais (notion de statistique mathématique, qui veut dire que en moyenne la valeur empirique est égale à la valeur théorique) est n / (n − 1) fois la variance observée. La variance sans biais est par conséquent supérieure à la variance observée.

Écart-type

Article détaillé : Écart type.

\hat\sigma_X : c'est la racine carrée de la variance

Minimum et maximum

Intervalles de confiance

La Loi des grands nombres garantit que la moyenne estimée \bar X est à une distance plus petite que d de la moyenne théorique E (X) avec une probabilité P({Y\over \hat\sigma_X\sqrt{n}}<d), où Y suit une distribution gaussienne. Cela veut aussi dire que (qα est le quantile correspondant à α pour une gaussienne)  :

P\left( E(X)\in \left[\bar X-\alpha {\sigma_X\over\sqrt{n}}, \bar X+\alpha {\sigma_X\over\sqrt{n}} \right]\right) = q_\alpha

Donc, quand la taille de l'échantillon n augmente linéairement, la précision de l'estimateur de la moyenne augmente en 1/\sqrt{n}.

Lorsque la totalité de n points ne forme pas un échantillon de la population, mais la population totale, la variance sans biais n'a pas à être utilisée, puisque on n'est plus dans un contexte d'estimation mais de mesure.

Quartiles

Ceux-ci généralisent la notion de médiane qui coupe la distribution en deux parties identiques. On définit surtout les quartiles, déciles et centiles (ou percentiles) sur la population, ordonnée dans l'ordre croissant, qu'on divise en 4, 10 ou 100 parties de même effectif.

On parlera ainsi du «centile 90» pour indiquer la valeur séparant les premiers 90% de la population des 10% restant. Ainsi, dans une population de jeunes enfants, un enfant dont la taille ou le poids est au-delà du centile 90, ou en deçà du centile 10, doit être l'objet d'un suivi spécifique.

Histogramme

Article détaillé : Histogramme.

Même s'il est reconnu par énormément comme une représentation graphique, et qu'il a par conséquent plus sa place dans une description des méthodes de Visualisation des données, l'histogramme est un chaînon naturel entre une représentation exhaustive des données et la description par comparaison à des lois statistiques connues.

Distribution empirique

histogramme de l'exemple des sportifs.

La densité empirique d'une variable à valeurs discrètes est simplement constituée de la proportion des observations prenant chaque valeur.

Si on reprend l'exemple des sportifs, la densité empirique de notre population est 57% de succès et 43% d'échecs. L'histogramme associé est particulièrement simple (cf image à gauche).

On nomme fonction de répartition empirique associée une série d'observations à valeur réelles ayant les valeurs V_1,\ldots,V_N la fonction suivante :

Fˆ*(v) = \frac{1}{N}\sum_{n=1}ˆN \mathbf{1}_{v\geq V_n}

Elle est une estimation de la probabilité que la valeur d'un événement du phénomène observé ait une valeur supérieure ou égale à v.

Si on voulait en déduire la densité empirique associée aux observations, il faudrait dériver F * (v) . Dans la mesure où la dérivée d'une indicatrice (\mathbf{1}_{v\geq V_n}) est une distribution de Dirac, le résultat ne serait pas particulièrement utilisable.

Plusieurs alternatives sont envisageables :

fˆ*(v) = \frac{1}{N}\sum_{n=1}ˆN K_r(v-V_n)K est une fonction noyau (de masse égale à un).

Un histogramme est la meilleure estimation par une fonction en escalier de la densité empirique. C'est-à-dire que l'intégrale de l'histogramme doit être la plus proche envisageable de F * (v) . Remarquons que l'intégrale de l'histogramme est une fonction continue affine par morceaux. D'un certain point de vue :

trouver la fonction continue affine par morceaux qui approxime le mieux la fonction de répartition empirique revient à caractériser complètement l'histogramme.

Dans ce cadre, le nombre de morceaux (de classes ou de barres) est un paramètre particulièrement important. Il faut recourir à un critère supplémentaire si on veut trouver sa meilleure valeur envisageable. On prend par exemple un critère à la Akaike ou le critère BIC (Bayesian Information Criterion) ; il est aussi envisageable de recourir à un critère d'information ou d'entropie.

Par construction, les barres de l'histogramme ne sont par conséquent pas obligatoirement toutes de la même largeur.

Construction d'un histogramme

Exemple d histogramme.png

L'histogramme est une des nombreuses représentations graphiques de données statistiques envisageables. Comme les quantiles, l'histogramme découpe la population en classes mais le point de vue est différent.

Avec les quantiles, l'objectif est de localiser les frontières entre classes de même effectif. Ils sont fréquemment utilisés, par exemple en matière de revenus, pour comparer les deux classes extrêmes.

Pour les histogrammes, les largeurs de classes sont choisies pour rendre le mieux envisageable compte de la distribution réelle des observations. C'est une tâche complexe.

Pour plus de simplicité, les classes des histogrammes sont quelquefois pris de même largeur et de hauteur variable : on nomme de tels histogrammes des diagrammes en barres. Ce ne sont pas de véritables histogrammes.

La fonction de répartition empirique (noir) et la fonction continue affine par morceaux associées à un histogramme

Il est envisageable de comparer la distance entre ces deux courbes.

En allant plus loin, ce genre de méthode de comparaison de fonctions de distribution (ici entre celles issues de l'histogramme et la distribution empirique) est parfois utilisé pour comparer la répartition empirique de nos observations à celle d'une loi connue (c'est par exemple le principe de la Droite de Henry). Cela sert à répondre à la question ma répartition ressemble-t-elle à une distribution connue ?.

Il s'agit de comparer la distribution d'observations à une loi statistique connue.

Si on identifie une loi connue (par exemple une gaussienne) dont la répartition est statistiquement indiscernable de notre distribution empirique, nous avons un très bon moyen de résumer l'information : qu'y a-t-il de plus descriptif qu'une phrase du genre mes observations sont réparties comme une loi normale de moyenne 0 et d'écart type 0.2 ?

Étude de plusieurs variables

Le principe est le même que pour une seule variable, sauf que l'ensemble des caractéristiques (moyenne, mode, écart type, etc) sont bi variées (des vecteurs).

Article détaillé : Matrice de corrélation.

Il y a d'autre part une caractéristique supplémentaire : la corrélation. Elle est une mesure linéaire de la dépendance entre les différentes composantes de la variable multi variée.

Il existe d'autres mesures de dépendance entre deux variables, comme l'information mutuelle (ou l'entropie conditionnelle).

Au delà des mesures, on peut aussi explorer les dépendances à l'aides d'outils graphiques ou de tableaux.

Disjonction des données

Le plus simple des tableaux envisageable est une disjonction. Quand nous avons deux variables V1 et V2, observées par exemple en plusieurs instants t_1,\ldots,t_N (notons (V1 (tn), V2 (tn) ) l'observation des deux variables à l'instant tn), il est toujours envisageable de choisir un seuil Vˆ*_2 sur la seconde variable et de transformer notre échantillon (V1 (tn), V2 (tn) ) n en <img class=;

  • ceux pour lesquels la seconde variable est plus petite ou égale à Vˆ*_2.
  • Plus ces deux ensembles seront différents (en termes de critère mono variés : moyenne, écart type, comparaison à une distribution connue, etc), et plus l'événement <img class=V1. Quand c'est le cas, nous avons identifié une dépendance entre V1 et l'événement <img class=.

    On se retrouve alors avec une population de S + 1 échantillons à une seule variable (V1), qui peuvent être étudiés scindément. Si on s'aperçoit que les distributions sur les échantillons sont particulièrement différentes, c'est qu'il y a une dépendance entre les deux variables.

    Voir aussi

    Recherche sur Amazone (livres) :



    Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Statistique_descriptive.
    Voir la liste des contributeurs.
    La version présentée ici à été extraite depuis cette source le 07/04/2010.
    Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
    La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
    Cette page fait partie du projet Wikibis.
    Accueil Recherche Aller au contenuDébut page
    ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
    Aller au menu