En économétrie, l'endogénéité se réfère généralement à une situation dans laquelle une des variables explicatives est corrélée avec le terme d'erreur. La distinction entre les variables endogènes et exogènes vient des modèles d'équations simultanées, où on sépare les variables entre celles qui sont déterminées par le modèle et celles qui sont prédéterminées. Ignorer la simultanéité dans l'estimation provoque un biais des estimateurs car cela viole l'hypothèse d'orthogonalité présente dans le théorème de Gauss-Markov. Le problème de l'endogénéité est malheureusement souvent ignoré par les chercheurs faisant de la recherche non-expérimentale, ce qui empêche de faire de bonnes recommandations en matière de politique à mener[réf. nécessaire]. La méthode des variables instrumentales est souvent utilisée pour régler le problème de l'endogénéité.

En plus de la simultanéité, la corrélation entre les variables explicatives et le terme d'erreur peut survenir quand une variable omise agit à la fois sur la variable expliquée et sur une (ou des) variable(s) explicative(s). Cette corrélation peut également arriver quand il y a des erreurs de mesure sur les variables explicatives.

Exogénéité versus endogénéité

modifier

Dans un modèle stochastique, on peut définir les notions de faible exogénéité, forte exogénéité et super exogénéité. Une variable est :

  • faiblement exogène si les coefficients d'intérêt sont tous inclus dans l'équation que l'on cherche à estimer, et si l'estimation de ces coefficients n'est pas contrainte par la valeur des coefficients apparaissant dans d'autres équations du modèle[1] ;
  • fortement exogène si elle est faiblement exogène et qu'elle n'est pas causée au sens de Granger ;
  • super exogène si les coefficients ne varient pas.

Quand les variables explicatives ne sont pas stochastiques, elles sont fortement exogènes. Si la variable explicative est corrélée avec le terme d'erreur, alors le coefficient estimé par l'estimateur des moindres carrés ordinaires (MCO) sera biaisé. Il existe plusieurs méthodes de correction de ce biais, comme la méthode des variables instrumentales.

Modèles statiques

modifier

Cette partie présente les principales causes d'endogénéité.

Variable omise

modifier

Dans ce cas, l'endogénéité vient du fait qu'une des variables explicatives corrélée à la fois avec la variable expliquée et avec le terme d'erreur n'est pas prise en compte dans l'équation. Par exemple, supposons que le « vrai » modèle devant être estimé est :

 

mais que l'on oublie d'inclure la variable   (par exemple parce que l'on ne dispose pas de données dessus), alors   sera incluse dans le terme d'erreur et l'équation que nous estimerons en réalité sera :

  (avec  )

Si la corrélation entre   et   n'est pas nulle et que   agit directement sur   (ce qui revient à dire que  ), alors   est corrélée avec le terme d'erreur.

Erreur de mesure

modifier

Supposons que nous n'ayons pas une parfaite mesure d'une des variables explicatives. Par exemple, imaginons qu'au lieu d'observer  , on observe    est le « bruit » mesuré. Dans ce cas, un modèle sous la forme :

 

peut alors s'écrire :

 

 

  (où  )

Puisque   et   dépendent de  , ces deux variables sont corrélées et l'estimation de   par les MCO sera biaisée à la baisse. En revanche, une erreur de mesure de la variable expliquée ne cause pas d'endogénéité (bien qu'elle augmente la variance du terme d'erreur).

Simultanéité

modifier

Supposons qu'on ait un modèle avec deux équations « structurelles » dans lesquelles les variables   et   s'influencent réciproquement :

 

 

Chercher à estimer chaque équation donnera de l'endogénéité. Par exemple, pour la première équation, on a  . Si l'on cherche à exprimer   (en supposant que  ), on obtient

 

Si l'on suppose que   et   ne sont pas corrélées avec  , on a donc

 

Par conséquent, si l'on essaie d'estimer l'une des deux équations structurelles, on se retrouvera bloqué par l'endogénéité.

Modèles dynamiques

modifier

Le problème de l'endogénéité est particulièrement prévalent dans l'étude de liens de causalité dans les séries temporelles. Dans un système causal, il est fréquent que la valeur de certains facteurs en   dépendent de la valeur d'autres facteurs en  . Supposons par exemple que le niveau de contamination de la peste soit indépendant de tout autre facteur dans une période donnée, mais soit influencé par le niveau de précipitations et d'engrais utilisés au cours de la période précédente. Dans ce cas, il serait correct de dire que la contamination est exogène dans la période donnée mais endogène dans le temps.

Notons ce modèle  . Si la variable   est faiblement exogène pour le paramètre  , et que   ne cause pas   au sens de Granger, alors la variable   est fortement exogène pour le paramètre  .

Simultanéité

modifier

En général, la simultanéité se produit dans les modèles dynamiques de la même manière que dans les modèles statiques décrits ci-dessus.

Notes et références

modifier
  1. Claudio Araujo, Jean-François Brun et Jean-Louis Combes, Économétrie : licence, master, Rosny, Bréal, coll. « Amphi économie », , 2e éd. (1re éd. 2004), 312 p. (ISBN 978-2-7495-0301-1, BNF 41344958), p. 27.