Régression linéaire multiple

La régression linéaire multiple est une généralisation, à p variables explicatives, de la régression linéaire simple.



Catégories :

Estimation (statistique) - Statistiques

Recherche sur Google Images :


Source image : fr.wikipedia.org
Cette image est un résultat de recherche de Google Image. Elle est peut-être réduite par rapport à l'originale et/ou protégée par des droits d'auteur.

Page(s) en rapport avec ce sujet :

  • ... Le principe de la régression linéaire multiple est simple :... Il ne reste plus qu'à appliquer un modèle linéaire :.... Tests d'hypothèses. Un estimateur sans biais de la variance σ2 est défini par : s2 = ∑ (yi − yi) 2... (source : www-irma.u-strasbg)
  • ASPECTS MATHÉMATIQUES Un modèle général de régression linéaire multiple... analyse de variance et de tester les hypothèses sur le vecteur /3 du modèle de ... (source : books.google)
  • ... de la régression linéaire multiple est significatif ou non ?... On veut tester la significativité du cœfficient dans le modèle linéaire... Hypothèses : les sont indépendants et suivent une loi gaussienne centrée de variance.... Il faut ensuite en déduire un test d'hypothèse sur la valeur du ... (source : forums.futura-sciences)

Modèle théorique

La régression linéaire multiple est une généralisation, à p variables explicatives, de la régression linéaire simple.

Nous sommes toujours dans le cadre de la régression mathématique : étant donné un échantillon  (Y_i, X_{i1}, \ldots, X_{ip}), \, i = 1, \ldots, n nous cherchons à expliquer, avec le plus de précision envisageable, les valeurs prises par Yi, dite variable endogène, à partir d'une série de variables explicatives  X_{i1}, \ldots, X_{ip} . Le modèle théorique, formulé en termes de variables aléatoires, prend la forme

 Y_i = a_o + a_1 X_{i1} + a_2 X_{i2} + \ldots +  a_p X_{ip} + \varepsilon_i, \qquad i = 1, \ldots, n

 \varepsilon_i est l'erreur du modèle qui exprime, ou résume, l'information manquante dans l'explication linéaire des valeurs de Yi à partir des  X_{i1}, \ldots, X_{ip} (problème de spécifications, variables non prises en compte, etc. ).  a_0, a_1, \ldots, a_p sont les paramètres à estimer.

Exemple

Nous relevons 20 fois les paramètres suivants : la demande totale en électricité (ce sera notre yi, i étant compris entre 1 et 20) la température extérieure (ce sera notre xi1) l'heure à laquelle les données sont prises (ce sera notre xi2)

Faire une régression linéaire revient à déterminer les ao, a1 et a2 et \varepsilon_i tels que, quelle que soit la mesure prise, on ait :  y_i = a_o + a_{1} x_{i1} + a_{2} x_{i2} + \varepsilon_i

Estimation

Quand nous disposons de n observations  (y_i, x_{i1}, \ldots, x_{ip}), \, i = 1, \ldots, n , qui sont des réalisations des variables aléatoires  (Y_i, X_{i1}, \ldots, X_{ip}) , l'équation de régression s'écrit

 y_i = a_o + a_{1} x_{i1} + \ldots +  a_p x_{ip} + \varepsilon_i \qquad i = 1, \ldots, n \,


La problématique reste la même que pour la régression simple :

Notation matricielle

Nous pouvons adopter une écriture condensée qui rend la lecture et la manipulation de la totalité plus facile. Les équations suivantes


\begin{cases}
y_1 = a_0 + a_1 x_{1,1} + \ldots + a_p x_{1,p} + \varepsilon_1\\
y_2 = a_0 + a_1 x_{2,1} + \ldots + a_p x_{2,p} + \varepsilon_2\\
\cdots\\
y_n = a_0 + a_1 x_{n,1} + \ldots + a_p x_{n,p} + \varepsilon_n
\end{cases}

peuvent être résumées avec la notation matricielle


\begin{pmatrix}
y_1   \\
\vdots\\
y_n
\end{pmatrix}

=
\begin{pmatrix}
1 & x_{1,1} & \cdots & x_{1,p} \\
	\vdots & \vdots & \ddots & \vdots\\
	1 & x_{n,1} & \cdots & x_{n,p}

\end{pmatrix}

\begin{pmatrix}
a_0\\
a_1\\
\vdots\\
a_p\\
\end{pmatrix}
+
\begin{pmatrix}
\epsilon_1\\
\vdots\\
\epsilon_n\\
\end{pmatrix}

Soit de manière compacte :  y = Xa + \epsilon \,

avec

Hypothèses

Comme en régression simple, les hypothèses permettent de déterminer : les propriétés des estimateurs (biais, convergence)  ; et leurs lois de distributions (pour les estimations par intervalle et les tests d'hypothèses).

Il existe essentiellement deux catégories d'hypothèses :

Hypothèses stochastiques
Hypothèses structurelles
Écriture matricielle de l'hypothèse H6

 \mathrm{H_{2}:} \ E(\epsilon) = E
\begin{pmatrix} \epsilon_1\\
\vdots\\
\epsilon_n \end{pmatrix}
=
\begin{pmatrix} 0\\
\vdots\\
0 \end{pmatrix}

Sous l'hypothèse d'homoscedasticité et d'absence d'auto-corrélation, la matrice de variance-covariance du vecteur des erreurs peut s'écrire :

 \mathrm{H_{3} \ \mbox{et} \ H_{4}:}\ \mathrm{cov}(\epsilon) = \sigma ˆ2 I_n 
=
\sigma ˆ2
\begin{pmatrix} 
1 & 0 & \cdots &0 \\
0 & 1 & \cdots &0 \\
\vdots & & \ddots& \vdots \\ 
0 & \cdots &\cdots&1
\end{pmatrix}

=

\begin{pmatrix} 
\sigmaˆ2 & 0 & \cdots &0 \\
0 & \sigmaˆ2 & \cdots &0 \\
\vdots & & \ddots& \vdots \\ 
0 & \cdots &\cdots&\sigma ˆ2
\end{pmatrix}

Régresseurs stochastiques

Occasionnellemen, l'hypothèse (H1) est intenable : les régresseurs X sont supposés aléatoires. Mais dans ce cas, on suppose que X est aléatoire mais est indépendant de l'aléa \varepsilon. On remplace alors l'hypothèse (H2) par une hypothèse sur l'espérance conditionnelle :

 \mathrm{H_{2}: } \ E(\epsilon_i \mid X) = 0 \,

De même, il faudrait changer en conséquence les hypothèses (H3), (H4) et aussi (H5).

La méthode des moindres carrés ordinaires

Estimateur des moindres carrés ordinaires (EMCO)

Du modèle complet :

 y_i =a_0 + a_1 x_{i,1} + \cdots + a_p x_{i,p} +\epsilon_i \,

On va estimer les paramètres et obtiendra :

\hat{y_i} =\hat{a}_0 + \hat{a}_1 x_{i,1} + \cdots + \hat{a}_p {x}_{i,p}\,

Les résidus estimés sont la différence entre la valeur d'y observée et estimée. Soit :

Définition —  \hat{\epsilon}_i \equiv y_i - \hat{y}_i \,

Le principe des moindres carrés consiste à rechercher les valeurs des paramètres qui minimisent la somme des carrés des résidus.

\min \sum_{i=1}ˆ{n} \hat{\epsilon}_iˆ2 = \min_{\hat{a}_0, ., \hat{a}_p} \sum_{i=1}ˆ{n} (y_i - \hat{a}_0 - \hat{a}_1 x_{i,1} - \cdots - \hat{a}_{p} x_{i,p})ˆ2  .

Ce qui revient à rechercher les solutions de \frac{\partial (\sum \hat{\epsilon}_iˆ2)}{\partial \hat{a}_j} = 0\,. Nous avons j =p + 1 équations, dites équations normales, à résoudre.

La solution obtenue est l'estimateur des moindres carrés ordinaires, il s'écrit :

Théorème —   \hat a = (X'X)ˆ{-1}X'Y \qquad \, est l'estimateur qui minimise la somme des carrés des résidus.

avec X' la transposée de X

Remarques :

Interprétation géométrique, algébrique et statistique de l'estimateur MCO

Propriétés des estimateurs

Si les hypothèses initiales sont respectées, l'estimateur des MCO (Moindres Carrés Ordinaires) possède d'excellentes propriétés.

Propriétés en échantillons finis

Propriété — L'estimateur MCO est sans biais, c. -à-d.  \operatorname{E}(\hat a) = a, sous les hypothèses H1, H2, et H5

Cette propriété se base uniquement sur les hypothèses d'espérance nulle des résidus. La présence d'autocorrélation ou d'hétéroscédasticité n'affecte pas ce résultat.

Propriété —  L'estimateur MCO est le meilleur estimateur linéaire sans biais, sous les hypothèses H1 à H5

C. -à. -d. qu'il n'existe pas d'estimateur linéaire sans biais de a qui ait une variance plus petite. Cette propriété en anglais est désignée par BLUE, pour best linear unbiased estimator. La preuve est donnée par le Théorème de Gauss-Markov.

Propriété — L'estimateur MCO est distribué selon une loi normale  \hat a \sim \mathcal{N}(0, \sigmaˆ2_{\varepsilon}(X'X)ˆ{-1}) sous les hypothèses H1, H2, et H6

Propriétés asymptotiques

Propriété — L'estimateur MCO est convergent en probabilité, c. -à-d.  \hat a \xrightarrow{p} a, sous les hypothèses H6, et H8

Propriété — L'estimateur MCO suit asymptotiquement une loi normale \hat a \sim \mathcal{N}(0, \frac{\sigmaˆ2_{\varepsilon}(Q)ˆ{-1}}{n}) sous les hypothèses H1 à H5 et H8

Ce résultat est obtenu sans l'hypothèse de normalité des résidus (H6).


Évaluation

Pour réaliser les estimations par intervalle et les tests d'hypothèses, la démarche est presque toujours la même en statistique paramétrique :

Matrice de variance-covariance de â

La matrice de variance-covariance des cœfficients est importante car elle renseigne sur la variance de chaque cœfficient estimé, et sert à faire des tests d'hypothèse, surtout de voir si chaque cœfficient est significativement différent de zéro. Elle est définie par :

 \operatorname{Var}(\hat a)\equiv \Sigma = \operatorname{E}[(\hat a- a)(\hat a- a)']

Sous les hypothèses d'espérance nulle, d'absence d'autocorrélation et d'hétéroscédasticité des résidus (H1 à H5), on a :  \operatorname{Var}(\hat a)=\sigmaˆ2_{\varepsilon}(X'X)ˆ{-1}

Cette formule ne s'applique cependant que dans le cas où les les résidus sont homoscédastiques et sans auto-corrélation, ce qui permet d'écrire la matrice des erreurs comme : \textrm{Cov}[\varepsilon] =  \sigmaˆ2 I_{n} \,

S'il y a de l'hétéroscédasticité ou de l'auto-corrélation, et par conséquent  \textrm{Cov}[\varepsilon] \neq  \sigmaˆ2 I_{n}  , il est envisageable de rectifier la matrice de variance-covariance estimée par :

Ces deux estimateurs sont disponible pour le logiciel libre de statistique R dans le paquet externe "sandwich".


Estimation de la variance du résidu

Pour la variance du résidu  \sigma_{\varepsilon}ˆ{2}\equiv \operatorname{Var}[\varepsilon], on peut utiliser l'estimateur sans biais construit à partir de la variance des résidus observés :

sˆ2\equiv \hat \sigmaˆ2_{\varepsilon}=\frac{1}{n-p-1}\sum_{i=1}ˆ{N}\hat \varepsilon_iˆ2

Les \hat \varepsilon correspondent aux résidus observés :   \hat \varepsilon= Y - \hat Y.

On remarque deux choses comparé à l'estimateur classique de la variance : sˆ2_{n-1} \equiv \hat\sigma ˆ2= \frac{1}{n-1} \sum_{i=1}ˆn\left(y_i - \overline{y} \right)ˆ 2,

Il existe aussi un autre estimateur, obtenu par la méthode du maximum de vraisemblance, qui est cependant biaisé :

sˆ2\equiv \hat \sigmaˆ2_{\varepsilon}=\frac{1}{n}\sum_{i=1}ˆ{N}\hat \varepsilon_iˆ2

Estimation de la matrice de variance-covariance de â

Il suffit de remplacer la variance théorique des résidus, \sigmaˆ2_{\varepsilon}, par son estimateur sans biais des moindres carrés : sˆ2\equiv \hat \sigmaˆ2_{\varepsilon}=\frac{1}{n-p-1}\sum_{i=1}ˆ{N}\varepsilon_iˆ2

L'estimateur de la matrice de variance-covariance des résidus devient :

\hat{\operatorname{Var}[{\hat a}]}\equiv \hat \Sigma_{\hat a} = \hat \sigma_{\varepsilon}ˆ{2}(X'X)ˆ{-1}

La variance estimée \hat \sigma_{\hat a_j}ˆ2 de l'estimation du paramètre â j est lue sur la diagonale principale de cette matrice.

Étude des cœfficients

Après avoir obtenu l'estimateur, son espérance et une estimation de sa variance, il ne reste plus qu'à calculer sa loi de distribution pour produire une estimation par intervalle et réaliser des tests d'hypothèses.

Distribution

En partant de l'hypothèse

\epsilon_i \sim N(0,\sigma_\epsilon)\,,

nous pouvons montrer

  1. \frac{\hat a_j - a_j}{\sigma_{\hat a_j}} \sim N(0,1)
  2. (n-p-1) \frac{\hat \sigma_{\hat a_j}ˆ2}{\sigma_{\hat a_j}ˆ2} \sim \chiˆ2(n-p-1)

Le rapport d'une loi normale et de la racine carrée d'une loi du χ² normalisée par ses degrés de liberté aboutit à une loi de Student. Nous en déduisons par conséquent la statistique :

t = \frac{\hat a_j - a_j}{\hat \sigma_{\hat a_j}} \sim \Tau (n-p-1)

elle suit une loi de Student à (n - p - 1) degrés de liberté.

Intervalle de confiance et tests d'hypothèses

À partir de ces informations, il est envisageable de calculer les intervalles de confiance des estimations des cœfficients.

Il est aussi envisageable de procéder à des tests d'hypothèses, surtout les tests d'hypothèses de conformité à un standard. Parmi les différents tests envisageables, le test de nullité du cœfficient (H0 : a j = 0, contre H1 : a j ≠ 0) tient un rôle spécifique : il sert à déterminer si la variable x j joue un rôle significatif dans le modèle. Il faut néanmoins être prudent quant à ce test . L'acceptation de l'hypothèse nulle peut effectivement indiquer une absence de corrélation entre la variable incriminée et la variable endogène ; mais il peut aussi résulter de la forte corrélation de x j avec une autre variable exogène, son rôle est masqué dans ce cas, laissant à croire une absence d'explication de la part de la variable.

Evaluation globale de la régression — Tableau d'analyse de variance

Tableau d'analyse de variance et cœfficient de détermination

L'évaluation globale de la pertinence du modèle de prédiction s'appuie sur l'équation d'analyse de variance SCT = SCE + SCR, où

Toutes ces informations sont résumées dans un tableau, le tableau d'analyse de variance.

Source de variation Somme des carrés Degrés de liberté Carrés moyens
Expliquée SCE=\sum_i(\hat y_i-\bar{y})ˆ2 p CME=\frac{SCE}{p}
Résiduelle SCR=\sum_i(y_i-\hat{y}_i)ˆ2 n - p - 1 CMR=\frac{SCR}{n-p-1}
Totale SCT=\sum_i(y_i-\bar{y})ˆ2 n - 1

Dans le meilleur des cas, SCR = 0, le modèle arrive à prédire précisément l'ensemble des valeurs de y à partir des valeurs des x j. Dans le pire des cas, SCE = 0, le meilleur prédicteur de y est sa moyenne \bar{y}.

Un indicateur spécifique sert à traduire la variance expliquée par le modèle, il s'agit du cœfficient de détermination. Sa formule est la suivante :

Rˆ2 = \frac{SCE}{SCT} = 1 - \frac{SCR}{SCT}\,

R=\sqrt{Rˆ2}\, est le cœfficent de corrélation multiple.

Dans une régression avec constante, nous avons forcément

0 ≤ R ² ≤ 1.

Enfin, si le R ² est certes un indicateur pertinent, il présente un défaut quelquefois ennuyeux, il a tendance à mécaniquement augmenter à mesure qu'on ajoute des variables dans le modèle. Par conséquent, il est inopérant si on veut comparer des modèle comportant un nombre différent de variables. Il est conseillé dans ce cas d'utiliser le cœfficient de détermination ajusté qui est corrigé des degrés de libertés :

\bar{R}ˆ2 = 1 - \frac{SCR/(n-p-1)}{SCT/(n-1)} = 1 - \frac{n-1}{n-p-1}(1-Rˆ2)

Significativité globale du modèle

Le R ² est un indicateur simple, on comprend facilement que plus il s'approche de la valeur 1, plus le modèle est intéressant. Par contre, il ne permet pas de savoir si le modèle est statistiquement pertinent pour expliquer les valeurs de y.

Nous devons nous tourner vers les tests d'hypothèses pour vérifier si la liaison mise en évidence avec la régression n'est pas un simple artefact.

La formulation du test d'hypothèse qui permet d'évaluer globalement le modèle est la suivante :

La statistique dédiée à ce test s'appuie (parmi les différentes formulations envisageables) sur le R ², il s'écrit :


F_{calc} = \frac{\frac{Rˆ2}{p}}{\frac{1-Rˆ2}{n-p-1}}
,

et suit une loi de Fisher à (p, n - p - 1) degrés de liberté.

La région critique du test est donc : rejet de H0 si et uniquement si Fcalc > F1 - α (p, n - p - 1), où α est le risque de première espèce.

Une autre manière de lire le test est de comparer la p-value (probabilité critique du test ) avec α : si elle est inférieure, l'hypothèse nulle est rejetée.

Un exemple

Les données CARS disponibles sur le site DASL ont été utilisées pour illustrer la régression linéaire multiple.

L'objectif est de prédire la consommation des véhicules, exprimée en MPG (miles parcouru par gallon de carburant, plus le chiffre est élevé, moins la voiture consomme) à partir de leurs caractéristiques (weight — poids, drive ratio — rapport de pont, horsepowerpuissance, …). Conformément à ce qui est indiqué sur le site, l'observation «Buick Estate Wagon», qui est un point atypique, a été supprimée de l'analyse.


Les résultats sont consignés dans les tableaux suivants :

Résultats globaux
Variable endogène MPG
Exemples 37
R ² 0, 933 367
R ² ajusté 0, 922 62
Erreur σ 1, 809 093
Test F (5, 31) 86, 847 2 (0, 000 000)
Tableaux resultats regression lineaire multiple.jpg

Cette lecture particulièrement simplifiée du rôle des variables doit évidemment être relativisée. La puissance (horsepower) est probablement masquée par le poids auquel elle est particulièrement fortement corrélée. Ce problème de colinéarité des exogènes est essentiel dans la régression. Il faut le détecter, et il faut le traiter. Il existe des méthodes de sélection automatique de variables pour y rémedier, l'expert du domaine joue aussi un rôle important. C'est pour cette raison par exemple qu'en économie, une analyse de régression doit être accompagnée d'une analyse économique fine des causalités qu'on essaie de déceler.

Régression de séries temporelles

La régression de séries temporelles, c'est-à-dire de variables indexées par le temps, peut poser des problèmes, surtout à cause de la présence d'autocorrélation dans les variables par conséquent aussi dans les résidus. Dans des cas extrêmes (quand les variables ne sont pas stationnaires), on aboutit au cas de régression fallacieuse : des variables qui n'ont aucune relation entre elles apparaissent néenmoins significativement liées selon les tests classiques.

La régression de séries temporelles demande par conséquent occasionnellementl'application d'autres modèles de régression, comme les modèles vectoriels autorégressifs (VAR) ou les modèles à correction d'erreur (VECM).

Voir aussi

Références

Logiciels

Recherche sur Amazone (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/R%C3%A9gression_lin%C3%A9aire_multiple.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu