Régression linéaire

En statistiques, étant donné un échantillon aléatoire un modèle de régression simple suppose la relation affine suivante entre Y i et X i ...



Catégories :

Estimation (statistique) - Statistiques

Recherche sur Google Images :


Source image : axialfinance.com
Cette image est un résultat de recherche de Google Image. Elle est peut-être réduite par rapport à l'originale et/ou protégée par des droits d'auteur.

Page(s) en rapport avec ce sujet :

  • L'hypothèse de la régression linéaire est que les µi sont alignés sur la vraie droite de régression qui est inconnue. Remarque : pour simplifier l'écriture... (source : www-rocq.inria)
  • En effet, le modèle de régression linéaire est représenté graphiquement par la droite de régression qu'il est envisageable de tracer entre les points du ... (source : pages.usherbrooke)
  • La régression linéaire multidimensionnelle est obtenue particulièrement simplement par la commande lm.... autrement dit ceux pour qui la régression linéaire est mal (ou pas) adaptée, ... Nous pouvons tracer désormais la droite de régression... (source : math.univ-montp2)
Un exemple graphique

En statistiques, étant donné un échantillon aléatoire  (Y_i, X_i), \, i = 1, \ldots, n un modèle de régression simple suppose la relation affine suivante entre Yi et Xi :

 Y_i = a X_i + b, \qquad i = 1, \ldots, n

La régression linéaire consiste à déterminer une estimation des valeurs a et b ainsi qu'à quantifier la validité de cette relation grâce au cœfficient de corrélation linéaire. La généralisation à p variables explicatives de ce modèle est donnée par

 Y_i = a_0 + a_1 X_{i1} + a_2 X_{i2} + \ldots + a_p X_{ip}

et se nomme la régression linéaire multiple.

Situation

Empiriquement, à partir d'observations  (y_i, x_i), \, i = 1, \ldots, n , on a représenté dans un graphe la totalité de ces points représentant des mesures d'une grandeur yi en fonction d'une autre xi, par exemple la taille yi des enfants selon leur âge xi.

Les points paraissent alignés. On peut alors proposer un modèle linéaire, c'est-à-dire chercher la droite dont l'équation est yi = axi + b et qui passe au plus près des points du graphe.

Passer au plus près, selon la méthode des moindres carrés, c'est rendre minimale la somme des carrés des écarts des points à la droite

 \sum_{i = 1}ˆn (y_i - ax_i - b)ˆ2 \,

où (yi - axi - b) ² représente le carré de la distance verticale du point expérimental (yi, xi) à la droite reconnue comme la meilleure.

Cela revient par conséquent à déterminer les valeurs des paramètres a et b (respectivement le cœfficient directeur de la droite et son ordonnée à l'origine) qui minimisent la somme ci-dessus.

Définitions

  • Moyenne empirique des xi : \overline{x}=\frac{1}{n}\sum_{i=1}ˆn x_i.
  • Moyenne empirique des yi : \overline{y}=\frac{1}{n}\sum_{i=1}ˆn y_i.
  • Point moyen : G(\overline{x},\overline{y}).
  • Variance empirique des xi : S_Xˆ2 =\frac{1}{n}\sum_{i=1}ˆn (x_i-\overline{x})ˆ2 = \overline{xˆ2}-{\overline{x}}ˆ2.
  • Ecart-type empirique des xi : S_X = \sqrt{S_Xˆ2}=\sqrt{V(x)}.
  • Variance empirique des yi : S_Yˆ2 =\frac{1}{n}\sum_{i=1}ˆn (y_i-\overline{y})ˆ2 = \overline{yˆ2}-{\overline{y}}ˆ2.
  • Ecart-type empirique des yi : S_Y = \sqrt{V(y)}.
  • Covariance empirique des xi, yi : S_{XY} = \frac{1}{n}\sum_{i=1}ˆn (x_i-\overline{x})(y_i-\overline{y}) = \overline{x \cdot y}-\overline{x} \cdot \overline{y}.

La formule de la variance se retient par la mnémonique : La moyenne des carrés moins le carré de la moyenne

de même pour la covariance : La moyenne du produit moins le produit des moyennes.

Résultat de la régression

La droite rendant minimale la somme précédente passe par le point G et a pour cœfficient directeur \frac{S_{XY}}{S_Xˆ2}. Son équation est donc :

y_i = \frac{S_{XY}}{S_Xˆ2}(x_i -\overline{x})+\overline{y}

soit

a = \frac{S_{XY}}{S_Xˆ2}
b = \overline{y} - \frac{\overline{x} \cdot S_{XY}}{S_Xˆ2} = \overline{y} - a \cdot \overline{x}

Erreur commise

Si on nomme εi l'écart vertical entre la droite et le point (xi , yi )

\varepsilon_i = y_i - a x_i - b

alors l'estimateur de la variance résiduelle σ²ε est :

\hat{\sigma}_\varepsilonˆ2 = \frac{1}{n-2} \cdot \sum_{i = 1}ˆn \varepsilon_iˆ2

la variance de a, σ²a, est estimée par

\hat{\sigma}_aˆ2 = \frac{\hat{\sigma}_\varepsilonˆ2}{n \cdot V(x)}.

On est dans le cadre d'un test de Student sur l'espérance avec écart type inconnu. Pour un niveau de confiance α donné, on estime que l'erreur sur a est :

\Delta a = \hat{\sigma}_a \cdot tˆ{n-2}_{(1-\alpha)/2}

tn-2 (1-α) /2 est le quantile d'ordre α/2 de la loi de Student à n-2 degrés de liberté.

L'erreur commise en remplaçant la valeur mesurée yi par le point de la droite axi + b est :

\Delta y = \hat{\sigma}_\varepsilon \cdot tˆ{n-2}_{(1-\alpha)/2}

À titre d'illustration, voici quelques valeurs de quantiles.

Exemples de quantiles de la loi de Student
n niveau de confiance
90 % 95 % 99 % 99, 9 %
5 2, 02 2, 57 4, 032 6, 869
10 1, 812 2, 228 3, 169 4, 587
100 1, 660 1, 984 2, 626 3, 390

Quand le nombre de points est important (plus de 100), on prend fréquemment une erreur à 3σ, qui correspond à un niveau de confiance de 99, 7 %.

Voir aussi : Erreur (métrologie) .

Cœfficient de corrélation linéaire

On peut aussi chercher la droite D' : x = a'y + b'qui rende minimale la somme :

\sum_{i=1}ˆn (x_i-a'y_i-b')ˆ2

On trouve alors une droite qui passe aussi par le point moyen G et telle que

a' = \frac{S_{XY}}{S_Yˆ2}.

On souhaite bien entendu tomber sur la même droite. Ce sera le cas si et uniquement si

a'= 1/a,

c'est-à-dire si

aa'= 1.

Les droites sont confondues si et uniquement si

\frac{S_{XY}ˆ2}{S_Xˆ2 S_Yˆ2}=1

c'est-à-dire si et uniquement si

\frac{S_{XY}}{S_X S_Y} =\pm 1

On nomme cette quantité R = \frac{S_{XY}}{S_X S_Y} le cœfficient de corrélation linéaire entre x et y. On peut démontrer que ce nombre est toujours compris entre -1 et 1.

En pratique sa valeur absolue est rarement égale à 1, mais on estime le plus souvent que l'ajustement est valide dès que ce cœfficient a une valeur absolue supérieure à \sqrt{3}/2

Voir aussi : Corrélation (mathématiques) .

Démonstration des formules par étude d'un minimum

Pour tout réel a, on pose f_a(b) = \sum_{i=1}ˆn (y_i-ax_i-b)ˆ2. Il suffit de développer et ordonner ce polynôme du second degré en b. On obtient :

f_a(b) = nbˆ2-2\left(\sum_{i=1}ˆn (y_i-ax_i)\right)b+  \sum_{i=1}ˆn (y_i-ax_i)ˆ2

Ce polynôme atteint son minimum en

b = \frac{1}{n}\sum_{i=1}ˆn (y_i-ax_i) = \overline{y} - a\overline{x}

Ce qui veut dire que la droite passe par le point moyen G

Il reste à remplacer dans la somme de départ, b par cette valeur.

Pour tout réel a, S(a) = \sum_{i=1}ˆn ((y_i-\overline{y}) - a(x_i-\overline{x}))ˆ2. Il suffit de développer et ordonner ce polynôme du second degré en a. On obtient

S(a) = \left(\sum_{i=1}ˆn (x_i-\overline{x})ˆ2\right)aˆ2 - 2\left(\sum_{i=1}ˆn (x_i-\overline{x})(y_i-\overline{y})\right)a + \sum_{i=1}ˆn (y_i - \overline{y})ˆ2
S(a)= n\times V(x)\times aˆ2-2\times n\times cov(x,y)\times a + n\times V(y) .

Ce polynôme atteint son minimum en

a=\frac{cov(x,y)}{V(x)}

La droite de régression est bien la droite passant par G et de cœfficient directeur a=\frac{cov(x,y)}{V(x)}.

Démonstration des formules grâce aux espaces vectoriels de dimension n

Dans l'espace \mathbb{R}ˆn, pourvu du produit scalaire canonique, on considère le vecteur X de coordonnées (x1, x2, ..., xn) , le vecteur Y de coordonnées (y1, y2, ..., yn) , le vecteur U de coordonnées (1, 1, ..., 1).

On peut remarquer que :

On note alors \overline{X} le vecteur \overline{x}U et \overline{Y} le vecteur \overline{y}U

Le vecteur Z de coordonnées (ax1 + b, ax2 + b, ..., axn + b) appartient à l'espace vectoriel génèré par X et U.

La somme \sum_{i=1}ˆn (y_i-ax_i-b)ˆ2 représente le carré de la norme du vecteur YZ.

Cette norme est minimale si et uniquement si Z est le projeté orthogonal de Y dans l'espace vectoriel vect (X, U).

Z est le projeté de Y dans l'espace vectoriel vect (X, U) si et uniquement si (ZY). U = 0 et (Z-Y).(X - \overline{X})=0.

Or (Z-Y).U=aX.U+bUˆ2-Y.U=n(a\overline{x}+b-\overline{y}) par conséquent (Z-Y). U=0 veut dire que b= \overline{y} - a\overline{x}.

En remplaçant dans (Z-Y).(X - \overline{X}), on obtient

(a(X-\overline{X})-(Y-\overline{Y})).(X - \overline{X}) = naV(x) - ncov(x,y) par conséquent (Z-Y).(X - \overline{X})=0 veut dire que a = \frac{cov(x,y)}{V(x)}

Enfin le cœfficient de corrélation linéaire s'écrit alors \frac{(X-\overline{X}).(Y-\overline{Y})}{||X-\overline{X}||\times||Y-\overline{Y}||}. Cette quantité représente le cosinus de l'angle constitué par les vecteurs X-\overline{X} et Y-\overline{Y}.

On retrouve alors les résultats suivants :

Généralisation : le cas matriciel

Article détaillé : Régression linéaire multiple.

Quand on dispose de plusieurs variables explicatives dans une régression linéaire, il est souhaitable d'avoir recours aux notations matricielles. Si on dispose d'un jeu de n données (yi) i = 1.. n qu'on souhaite expliquer par k variables explicatives (y compris la constante) (1; x_{1,i}; \cdots ; x_{k-1,i})_{i=1..n}, on peut poser :

\mathbf{y} = \begin{bmatrix} y_1 \\ \vdots \\ y_n \end{bmatrix} \,\mbox{et}\, \mathbf{X} = \begin{bmatrix} 1 & x_{1,1} & \cdots & x_{k-1,1} \\ 1 & x_{1,2} & \cdots & x_{k-1,2}\\ \vdots & \vdots & \vdots \\ 1 & x_{1,n} & \cdots & x_{k-1,n} \end{bmatrix}

La régression linéaire s'exprime sous forme matricielle :

\mathbf{y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon}

et il est question d'estimer le vecteur de cœfficients k × 1 \boldsymbol{\beta}.

Son estimateur par moindre carré est :

\boldsymbol{\widehat{\beta}} = (\mathbf{X}ˆ{T} \mathbf{X})ˆ{-1} \mathbf{X}ˆ{T} \mathbf{y}

Il faut que la matrice X soit de plein rang ({\rm rang}(\mathbf{X})=k) pour que \mathbf{X}ˆ{T} \mathbf{X} soit inversible.

L'estimation de la matrice (symétrique) de variance-covariance de cet estimateur est :

\boldsymbol{\widehat{\sigma}_{\widehat{\beta}}} = \begin{bmatrix} \hat{\sigma}ˆ2_{\hat{\beta}_1} & \widehat{cov}(\hat{\beta}_1,\hat{\beta}_2) & \cdots &  \widehat{cov}(\hat{\beta}_1,\hat{\beta}_k) \\  \widehat{cov}(\hat{\beta}_2,\hat{\beta}_1) & \widehat{\sigma}ˆ2_{\hat{\beta}_2} & \cdots &  \widehat{cov}(\hat{\beta}_2,\hat{\beta}_k) \\ \vdots & \vdots & \vdots & \vdots \\  \widehat{cov}(\hat{\beta}_n,\hat{\beta}_2) & \cdots & \cdots & \widehat{\sigma}ˆ2_{\hat{\beta}_n}\end{bmatrix} = \frac{\mathbf{\widehat{e}}ˆ{T} \mathbf{\widehat{e}}}{(n-k)}  (\mathbf{X}ˆ{T} \mathbf{X})ˆ{-1}

Le terme \mathbf{\widehat{e}}ˆ{T} \mathbf{\widehat{e}} représente la somme des carrés des résidus \mathbf{\widehat{e}} = y - \widehat{\mathbf{y}} = \mathbf{X} \boldsymbol{\widehat{\beta}}.

La qualité de l'ajustement linéaire se mesure toujours par un cœfficient de corrélation R2, défini ici par :

Rˆ2 = \frac{{\rm SCE}}{{\rm SCT}}

où SCE (respectivement SCT) représente la somme des carrés expliqués (respectivement la somme des carrés totaux). Ces sommes se donnent par {\rm SCE} = \widehat{\mathbf{y}}ˆ{T} \widehat{\mathbf{y}} = \sum_i \widehat{y}_iˆ2 et {\rm SCT} = \mathbf{y}ˆT \mathbf{y}= \sum_i y_iˆ2.

Voir aussi

Liens externes

Recherche sur Amazone (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/R%C3%A9gression_lin%C3%A9aire.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu