Test

En statistiques, un test d'hypothèse est une démarche consistant à rejeter ou à ne pas rejeter une hypothèse statistique, nommée hypothèse nulle, en fonction d'un jeu de données.



Catégories :

Test statistique - Statistiques

Recherche sur Google Images :


Source image : dse-soft.com
Cette image est un résultat de recherche de Google Image. Elle est peut-être réduite par rapport à l'originale et/ou protégée par des droits d'auteur.

Définitions :

  • Un autre sport particulièrement à la mode chez les Normaliens. (source : quatramaran.ens)
  • (see Test ) Un outil ou une technique visant à mesurer la performance d'un apprenant, les connaissances ou les habiletés. (source : erudium.polymtl)

En statistiques, un test d'hypothèse est une démarche consistant à rejeter ou à ne pas rejeter (rarement accepter) une hypothèse statistique, nommée hypothèse nulle, en fonction d'un jeu de données (échantillon). Il s'agit de statistique inférentielle : à partir de calculs réalisés sur des données observées, nous émettons des conclusions sur la population, en leur rattachant des risques de se tromper.

Catégories des tests

Les tests peuvent être classés selon leur finalité, le type et le nombre des variables d'intérêt, l'existence d'hypothèses a priori sur les distributions des données, le mode de constitution des échantillons.

Les tests selon leur finalité

La finalité définit l'objectif du test , les hypothèses qu'on veut opposer, l'information qu'on souhaite extraire des données.

Le test de conformité consiste à confronter un paramètre calculé sur l'échantillon à une valeur pré-établie. On parle alors de test de conformité à un standard. Les plus connus sont sans doute les tests portant sur la moyenne ou sur les proportions. A titre d'exemple, dans un jeu de dés à 6 faces, on sait que la face 3 a une probabilité de 1/6 d'apparaître. On demande à un joueur de lancer (sans précautions spécifiques) 100 fois le dé, on teste alors si la fréquence d'apparition de la face 3 est compatible avec la probabilité 1/6. Si ce n'est pas le cas, on peut se poser des questions sur l'intégrité du dé.

Le test de correction consiste à vérifier la comptabilité des données avec une distribution choisie a priori. Le test le plus utilisé dans cette optique est le test de correction à la loi normale.

Le test d'homogénéité (ou de comparaison) consiste à vérifier que K (K >= 2) échantillons (groupes) proviennent de la même population ou, cela revient à la même chose, que la distribution de la variable d'intérêt est la même dans les K échantillons.

Le test d'association (ou d'indépendance) consiste à éprouver l'existence d'une liaison entre 2 variables. Les techniques utilisées changent selon que les variables sont qualitatives nominales, ordinales ou quantitatives.

Les tests selon le type et le nombre de variables

On peut distinguer le plus souvent 3 principaux types de variables. Une variable qualitative nominale prend un nombre restreint de valeurs (modalités), il n'y a pas d'ordre entre ces valeurs, l'exemple le plus connu est le sexe, il y a 2 valeurs envisageables Homme et Femme. Une variable qualitative ordinale prend un nombre restreint de valeurs, il y a un ordre entre les valeurs. Un exemple naturel est la prédilection ou la satisfaction : peu satisfait, satisfait, particulièrement satisfait. Il y a un ordre naturel entre les valeurs, mais nous ne pouvons pas quantifier les écarts. Enfin, une variable quantitative prend théoriquement un nombre illimité de valeurs, l'écart entre 2 valeurs a un sens. Un exemple simple serait le poids, la différence de poids entre 2 personnes est quantifiable, on sait l'interpréter.

Le type de données joue un rôle particulièrement important. Il circonscrit le cadre d'application des techniques. Pour un même objectif, selon le type de données, nous serons amenés à mettre en œuvre des tests différents. A titre d'exemple, pour mesurer l'association entre 2 variables : si elles sont quantitatives, nous utiliserons plutôt le cœfficient de corrélation de Pearson ; si elles sont qualitatives nominales, le cœfficient de corrélation n'a pas de sens, on utilisera plutôt des mesures telles que le V de Cramer ou le t de Tschuprow.

Essentiellement concernant les tests de conformité et d'homogénéité, on dit que le test est univarié s'il ne porte que sur une variable d'intérêt (ex. comparer la consommation de véhicules selon le type de carburant utilisé), il est multivarié s'il met en jeu simultanément plusieurs variables (ex. la comparaison porte sur la consommation, la quantité de CO2 émise, la quantité de particules émises, etc. ).

Tests paramétriques et tests non paramétriques

On parle de tests paramétriques quand on stipule que les données sont issues d'une distribution paramétrée. Dans ce cas, les caractéristiques des données peuvent être résumées avec paramètres estimés sur l'échantillon, la procédure de test subséquente ne porte tandis que sur ces paramètres. L'hypothèse de normalité sous jacente des données est le plus fréquemment utilisée, la moyenne et la variance suffisent pour caractériser totalement la distribution. Concernant les tests d'homogénéité par exemple, pour éprouver l'égalité des distributions, il suffira de comparer les moyennes et/ou les variances.

Les tests non paramétriques ne font aucune hypothèse sur la distribution sous-jacente des données. On les qualifie fréquemment de tests distribution free. L'étape préalable consistant à estimer les paramètres des distributions avant de procéder au test d'hypothèse lui-même n'est plus indispensable.

Quand les données sont quantitatives, les tests non paramétriques transforment les valeurs en rangs. L'appellation tests de rangs est fréquemment rencontrée. Quand les données sont qualitatives, seuls les tests non paramétriques sont utilisables.

La distinction paramétrique – non paramétrique est principale. Elle est toujours mise en avant dans la littérature. Les tests non paramétriques, en ne faisant aucune hypothèse sur les distributions des données, élargissent le champ d'application des procédures statistiques. En contrepartie, ils sont moins puissants quand ces hypothèses sont compatibles avec les données.

Constitution des échantillons

Ce point est en particulier associé aux tests de comparaison. On parle d'échantillons indépendants quand les observations sont indépendantes au sein des groupes et d'un groupe à l'autre. C'est le cas quand l'échantillon provient d'un échantillonnage simple dans la population globale.

Les échantillons appariés par contre reposent sur schéma différent. D'un groupe à l'autre, les individus sont liés. C'est le cas quand nous procédons à des mesures répétées sur les mêmes sujets. A titre d'exemple, on mesure la fièvre d'un patient avant et après la prise d'un médicament. L'appariement est une procédure complexe qui va au delà des mesures répétées (ex. les blocs aléatoires complets), elle vise à perfectionner la puissance des tests en réduisant l'influence des fluctuations d'échantillonnage.

Liste des tests usuels

A partir des considérations ci-dessus, nous pouvons proposer une classification des principaux tests utilisés en statistique inférentielle. Nous laissons de côté des tests relatifs à des techniques statistiques spécifiques. Ils dépassent beaucoup le cadre de ce sujet, il paraît plus intéressant de les approfondir dans leur cadre naturel (ex. test de nullité de cœfficients de la Régression linéaire multiple ; évaluation d'un bloc de cœfficients dans la Régression logistique, etc. ).

Type de test Tests paramétriques Tests non paramétriques
Problème à 1 échantillon
Tests de conformité à un standard
  • Test de conformité d'une moyenne (test de Student), d'un écart-type et d'une proportion
.
Tests de correction à une loi .
  • Test de Kolmogorov-Smirnov
  • Test de correction du χ2
  • Test de Shapiro-Wilk, test de Lilliefors, test d'Anderson-Darling, test de D'Agostino, Test de Jarque Bera
Tests de symétrie des répartitions .
  • Test de Wilcoxon
  • Test de Van der Wærden
Comparaison de (K ≥ 2) populations
Tests omnibus de comparaison de populations, les fonctions de répartition sont les mêmes dans les groupes .
  • Test de Kolmogorov - Smirnov
  • Test de Kuiper
  • Test de Cramer - von Mises
Tests de comparaison de K échantillons indépendants (différenciation selon les caractéristiques de tendance centrale, modèle de localisation)
  • Test de la somme des rangs de Wilcoxon (K=2)
  • Test de Mann - Whitney (K=2)
  • Test de Kruskal - Wallis
  • Test des médianes
  • Test de Van der Wærden
  • Test de Jonckheere - Terpstra (alternatives ordonnées)
Tests de comparaison de K échantillons indépendants (différenciation selon les caractéristiques de dispersion, modèle d'échelle)
  • Test de Fisher (K=2)
  • Test de Bartlett
  • Test de Cochran
  • Test F-max de Hartley
  • Test de Levene
  • Test de Brown-Forsythe
  • Test de Ansari - Bradley
  • Test de Klotz
  • Test de Mood
  • Test de Siegel-Tukey
  • Test des différences extrêmes de Moses
Tests pour K échantillons appariés (mesures répétées ou blocs aléatoires complets)
  • Test de Student de comparaison de moyennes pour échantillons appariés (K=2)
  • Test de comparaison de variances pour échantillons appariés (K=2)
  • ANOVA pour blocs aléatoires complets
  • Test des signes (K=2)
  • Test des rangs signés de Wilcoxon (K=2)
  • Test de Friedman
  • Test de Page (alternatives ordonnées)
  • Test de McNemar (K=2, variables binaires)
  • Test Q de Cochran (variables binaires)
Tests multivariés pour K échantillons indépendants
  • T² de Hotelling, comparaison de K=2 barycentres (vecteur des moyennes)
  • MANOVA (analyse de variance mutlivariée), comparaison de K barycentres : Lambda de Wilks, Trace de Pillai, Trace de Hotelling-Lawley, La plus grande valeur propre de Roy
  • Test M de Box de comparaison de matrices de variance covariance
.
Association entre variables
Association entre p=2 variables quantitatives
  • Rho de Spearman
  • Tau-a de Kendall
Association entre p = 2 variables ordinales .
  • Gamma de Goodman - Kruskal
  • Tau-b et Tau-c de Kendall
  • d de Sommers
  • Test de Mantel - Hænszel (variables binaires)
Association entre p=2 variables nominales .
  • Test d'indépendance du χ²
  • t de Tschuprow et v de Cramer
  • Cœfficient phi (variables binaires)
  • Cœfficient Q de Yule (variables binaires)
  • Lambda de Goodman - Kruskal
  • Tau de Goodman - Kruskal
  • U de Theil
Association entre (p ≥ 2) variables .
  • Cœfficient de concordance de Kendall (variables quantitatives ou ordinales)
  • Cœfficient Kappa de Fleiss, concordance de p jugements (variables ordinales ; Kappa de Cohen pour p = 2)

Voir aussi

Liens externes

Bibliographie

Logiciels

Recherche sur Amazone (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Test_(statistique).
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu