Test
En statistiques, un test d'hypothèse est une démarche consistant à rejeter ou à ne pas rejeter une hypothèse statistique, nommée hypothèse nulle, en fonction d'un jeu de données.
Définitions :
- Un autre sport particulièrement à la mode chez les Normaliens. (source : quatramaran.ens)
- (see Test ) Un outil ou une technique visant à mesurer la performance d'un apprenant, les connaissances ou les habiletés. (source : erudium.polymtl)
En statistiques, un test d'hypothèse est une démarche consistant à rejeter ou à ne pas rejeter (rarement accepter) une hypothèse statistique, nommée hypothèse nulle, en fonction d'un jeu de données (échantillon). Il s'agit de statistique inférentielle : à partir de calculs réalisés sur des données observées, nous émettons des conclusions sur la population, en leur rattachant des risques de se tromper.
Catégories des tests
Les tests peuvent être classés selon leur finalité, le type et le nombre des variables d'intérêt, l'existence d'hypothèses a priori sur les distributions des données, le mode de constitution des échantillons.
Les tests selon leur finalité
La finalité définit l'objectif du test , les hypothèses qu'on veut opposer, l'information qu'on souhaite extraire des données.
Le test de conformité consiste à confronter un paramètre calculé sur l'échantillon à une valeur pré-établie. On parle alors de test de conformité à un standard. Les plus connus sont sans doute les tests portant sur la moyenne ou sur les proportions. A titre d'exemple, dans un jeu de dés à 6 faces, on sait que la face 3 a une probabilité de 1/6 d'apparaître. On demande à un joueur de lancer (sans précautions spécifiques) 100 fois le dé, on teste alors si la fréquence d'apparition de la face 3 est compatible avec la probabilité 1/6. Si ce n'est pas le cas, on peut se poser des questions sur l'intégrité du dé.
Le test de correction consiste à vérifier la comptabilité des données avec une distribution choisie a priori. Le test le plus utilisé dans cette optique est le test de correction à la loi normale.
Le test d'homogénéité (ou de comparaison) consiste à vérifier que K (K >= 2) échantillons (groupes) proviennent de la même population ou, cela revient à la même chose, que la distribution de la variable d'intérêt est la même dans les K échantillons.
Le test d'association (ou d'indépendance) consiste à éprouver l'existence d'une liaison entre 2 variables. Les techniques utilisées changent selon que les variables sont qualitatives nominales, ordinales ou quantitatives.
Les tests selon le type et le nombre de variables
On peut distinguer le plus souvent 3 principaux types de variables. Une variable qualitative nominale prend un nombre restreint de valeurs (modalités), il n'y a pas d'ordre entre ces valeurs, l'exemple le plus connu est le sexe, il y a 2 valeurs envisageables Homme et Femme. Une variable qualitative ordinale prend un nombre restreint de valeurs, il y a un ordre entre les valeurs. Un exemple naturel est la prédilection ou la satisfaction : peu satisfait, satisfait, particulièrement satisfait. Il y a un ordre naturel entre les valeurs, mais nous ne pouvons pas quantifier les écarts. Enfin, une variable quantitative prend théoriquement un nombre illimité de valeurs, l'écart entre 2 valeurs a un sens. Un exemple simple serait le poids, la différence de poids entre 2 personnes est quantifiable, on sait l'interpréter.
Le type de données joue un rôle particulièrement important. Il circonscrit le cadre d'application des techniques. Pour un même objectif, selon le type de données, nous serons amenés à mettre en œuvre des tests différents. A titre d'exemple, pour mesurer l'association entre 2 variables : si elles sont quantitatives, nous utiliserons plutôt le cœfficient de corrélation de Pearson ; si elles sont qualitatives nominales, le cœfficient de corrélation n'a pas de sens, on utilisera plutôt des mesures telles que le V de Cramer ou le t de Tschuprow.
Essentiellement concernant les tests de conformité et d'homogénéité, on dit que le test est univarié s'il ne porte que sur une variable d'intérêt (ex. comparer la consommation de véhicules selon le type de carburant utilisé), il est multivarié s'il met en jeu simultanément plusieurs variables (ex. la comparaison porte sur la consommation, la quantité de CO2 émise, la quantité de particules émises, etc. ).
Tests paramétriques et tests non paramétriques
On parle de tests paramétriques quand on stipule que les données sont issues d'une distribution paramétrée. Dans ce cas, les caractéristiques des données peuvent être résumées avec paramètres estimés sur l'échantillon, la procédure de test subséquente ne porte tandis que sur ces paramètres. L'hypothèse de normalité sous jacente des données est le plus fréquemment utilisée, la moyenne et la variance suffisent pour caractériser totalement la distribution. Concernant les tests d'homogénéité par exemple, pour éprouver l'égalité des distributions, il suffira de comparer les moyennes et/ou les variances.
Les tests non paramétriques ne font aucune hypothèse sur la distribution sous-jacente des données. On les qualifie fréquemment de tests distribution free. L'étape préalable consistant à estimer les paramètres des distributions avant de procéder au test d'hypothèse lui-même n'est plus indispensable.
Quand les données sont quantitatives, les tests non paramétriques transforment les valeurs en rangs. L'appellation tests de rangs est fréquemment rencontrée. Quand les données sont qualitatives, seuls les tests non paramétriques sont utilisables.
La distinction paramétrique – non paramétrique est principale. Elle est toujours mise en avant dans la littérature. Les tests non paramétriques, en ne faisant aucune hypothèse sur les distributions des données, élargissent le champ d'application des procédures statistiques. En contrepartie, ils sont moins puissants quand ces hypothèses sont compatibles avec les données.
Constitution des échantillons
Ce point est en particulier associé aux tests de comparaison. On parle d'échantillons indépendants quand les observations sont indépendantes au sein des groupes et d'un groupe à l'autre. C'est le cas quand l'échantillon provient d'un échantillonnage simple dans la population globale.
Les échantillons appariés par contre reposent sur schéma différent. D'un groupe à l'autre, les individus sont liés. C'est le cas quand nous procédons à des mesures répétées sur les mêmes sujets. A titre d'exemple, on mesure la fièvre d'un patient avant et après la prise d'un médicament. L'appariement est une procédure complexe qui va au delà des mesures répétées (ex. les blocs aléatoires complets), elle vise à perfectionner la puissance des tests en réduisant l'influence des fluctuations d'échantillonnage.
Liste des tests usuels
A partir des considérations ci-dessus, nous pouvons proposer une classification des principaux tests utilisés en statistique inférentielle. Nous laissons de côté des tests relatifs à des techniques statistiques spécifiques. Ils dépassent beaucoup le cadre de ce sujet, il paraît plus intéressant de les approfondir dans leur cadre naturel (ex. test de nullité de cœfficients de la Régression linéaire multiple ; évaluation d'un bloc de cœfficients dans la Régression logistique, etc. ).
Type de test | Tests paramétriques | Tests non paramétriques | ||
---|---|---|---|---|
Problème à 1 échantillon | ||||
Tests de conformité à un standard |
|
. | ||
Tests de correction à une loi | . |
|
||
Tests de symétrie des répartitions | . |
|
||
Comparaison de (K ≥ 2) populations | ||||
Tests omnibus de comparaison de populations, les fonctions de répartition sont les mêmes dans les groupes | . |
|
||
Tests de comparaison de K échantillons indépendants (différenciation selon les caractéristiques de tendance centrale, modèle de localisation) |
|
|
||
Tests de comparaison de K échantillons indépendants (différenciation selon les caractéristiques de dispersion, modèle d'échelle) |
|
|
||
Tests pour K échantillons appariés (mesures répétées ou blocs aléatoires complets) |
|
|
||
Tests multivariés pour K échantillons indépendants |
|
. | ||
Association entre variables | ||||
Association entre p=2 variables quantitatives |
|
|||
Association entre p = 2 variables ordinales | . |
|
||
Association entre p=2 variables nominales | . |
|
||
Association entre (p ≥ 2) variables | . |
|
Voir aussi
Liens externes
- (en) J. D. Leeper, Choosing the Correct Statistical Test, CHS 627 : Multivariate Methods in Health Statistics, The University of Alabama.
- (en) J. H. McDonald, Choosing a statistical test, in Handbook of Biological Statistics
- R. Ramousse, M. Le Berre, L. Le Guelte, Inroduction aux statistiques, chapitres 1 à 5 (des mêmes auteurs, voir aussi Une approche pragmatique de l'Analyse des données)
- R. Rakotomalala, Comparaison de populations - Tests paramétriques et Comparaison de populations - Tests non paramétriques
- Tests non paramétriques sous Microsoft Excel
- Statisticien. fr Tests de rangs
- INRIA Rhône-Alpes SMEL - Statistique médicale en ligne, surtout Tests Statistiques
- D. Mouchiroud, Probabilité - Statistique, voir "Probabilités - Statistiques"
- J. Begin, Analyse quantitative en psychologie, voir "Notes de Cours"
Bibliographie
- P. Dagnelie, Statistique théorique et appliquée, t. 1 : Statistique descriptive et base de l'inférence statistique, De Bœck et Larcier, Paris et Bruxelles, 2007 .
- P. Dagnelie, Statistique théorique et appliquée, t. 2 : Inférence statistique à une ainsi qu'à deux dimensions, De Bœck et Larcier, Paris et Bruxelles, 2006 .
- J. -J. Drœsbecke, Éléments de statistique, Ellipses, Paris, 2001.
- B. Escofier et J. Pages, Initiation aux traitements statistiques : Méthodes, méthodologie, Rennes, Presses universitaires de Rennes, 1997.
- Falissard et Monga, Statistique : concepts et méthodes, Masson, Paris, 1993.
- H. Rouanet, J. -M. Bernard et B. Le Roux, Statistique en sciences humaines : analyse inductive des données, Dunod, Paris, 1990.
- G. Saporta, Probabilité, analyse des données et statistique, Technip, Paris, 1990.
- R. Veysseyre, Statistique et probabilité pour l'ingénieur, Dunod, Paris, 2002.
Logiciels
- Liste des logiciels de statistique
- Le logiciel R pour les calculs statistiques. Logiciel libre.
- Tanagra. Un logiciel libre pour l'enseignement et la recherche.
Recherche sur Amazon (livres) : |
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.