Régression non paramétrique

Cet article est une ébauche concernant les probabilités et la statistique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

La régression non paramétrique est une forme d'analyse de la régression dans lequel le prédicteur, ou fonction d'estimation, ne prend pas de forme prédéterminée, mais est construit selon les informations provenant des données. La régression non paramétrique exige des tailles d'échantillons plus importantes que celles de la régression basée sur des modèles paramétriques parce que les données doivent fournir la structure du modèle ainsi que les estimations du modèle.

Principe général

On dispose de données numériques que l'on suppose corrélées. Une des grandeurs, notée y {\displaystyle y} , est appelée variable expliquée. Les autres sont regroupées dans une variable dite explicative x {\displaystyle \mathbf {x} } qui est un vecteur :

x = ( x 1 , x 2 , , x m ) {\displaystyle \mathbf {x} =(x_{1},x_{2},\ldots ,x_{m})} .

On dispose de n {\displaystyle n} situations ( n {\displaystyle n} jeux de valeurs) formant un nuage de points :

( x i , y i ) = ( x 1 i , x 2 i , , x m i , y i ) {\displaystyle (\mathbf {x} ^{i},y^{i})=(x_{1}^{i},x_{2}^{i},\ldots ,x_{m}^{i},y^{i})} .

La régression consiste à trouver une fonction, appelée prédicteur

f : R m R {\displaystyle f:\mathbb {R} ^{m}\rightarrow \mathbb {R} }
x y {\displaystyle \mathbf {x} \mapsto y}

telle que le résidu

r i = y i f ( x i ) {\displaystyle r^{i}=y^{i}-f(\mathbf {x} ^{i})}

soit le « plus petit possible » ; on estime alors que le prédicteur f {\displaystyle f} « décrit bien » les données. On peut ainsi écrire

y i = f ( x i ) + r i {\displaystyle y^{i}=f(\mathbf {x} ^{i})+r^{i}}

ou encore

y i f ( x i ) {\displaystyle y^{i}\simeq f(\mathbf {x} ^{i})}

Dans le cas de la régression paramétrique, on part d'un prédicteur f {\displaystyle f} dont la forme générale est connue. C'est une fonction qui s'exprime par un jeu de paramètre p = ( p i , p 2 , , p k ) {\displaystyle p=(p_{i},p_{2},\ldots ,p_{k})} avec k n {\displaystyle k\leq n} . Le cas le plus simple est celui de la régression linéaire :

f p 1 , p 2 = p 1 x + p 2 {\displaystyle f_{p_{1},p_{2}}=p_{1}x+p_{2}} ,

et l'on cherche à minimiser le résidu quadratique i ( r i ) 2 {\displaystyle \sum _{i}(r^{i})^{2}}

Dans le cas de la régression non paramétrique, on ne part pas d'une forme de fonction connue. Le cas le plus simple est celui du lissage d'une courbe : à partir du nuage de points initial, on détermine un nouveau nuage de point présentant des variations moins abruptes (dérivable).

Méthodes de régression non paramétrique

Modèle de régression additif

Le modèle additif consiste à simplifier la recherche du prédicteur en considérant que c'est la somme de m {\displaystyle m} fonctions d'une seule variable :

y = β 0 + f 1 ( x 1 ) + f 2 ( x 2 ) + + f m ( x m ) {\displaystyle y=\beta _{0}+f_{1}(x_{1})+f_{2}(x_{2})+\cdots +f_{m}(x_{m})}

où les fonctions f i {\displaystyle f_{i}} sont des fonctions « lisses » (dérivables). Chaque fonction f i {\displaystyle f_{i}} est estimée à partir des données.

Il existe des variations autour de ce concept :

  • modèle semi-paramétrique : certaines fonctions f i {\displaystyle f_{i}} sont linéaires, f i = β i x i {\displaystyle f_{i}=\beta _{i}x_{i}}  ;
  • modèle avec interactions : on introduit dans la somme des fonctions de deux variables f i , j ( x i , x j ) {\displaystyle f_{i,j}(x_{i},x_{j})} .

Régression locale

Article détaillé : Régression locale.

La régression locale consiste à faire de la régression par parties : on découpe l'espace des variables explicatives en zones, et l'on fait une régression sur chaque zone. La régression au sein d'une zone peut être elle-même paramétrique, la méthode est toutefois tout de même considérée comme non paramétrique. On fait ainsi fréquemment de la régression locale polynomiale ou de la régression locale par spline.

Le prédicteur n'est pas toujours continu, ni a fortiori dérivable ; il n'est que continu par morceaux (et dérivable par morceaux).

Estimation par noyau

Article détaillé : Estimation par noyau.

La méthode de l'estimation par noyau consiste à considérer un noyau, c'est-à-dire une fonction K {\displaystyle K} symétrique et semi-définie positive (typiquement linéaire, polynomial ou gaussien). Le prédicteur est alors de la forme :

f ( x ) = k β k K ( x X k ) {\displaystyle f(\mathbf {x} )=\sum _{k}\beta _{k}K(\mathbf {x} -\mathbf {X} _{k})}

où les X k {\displaystyle \mathbf {X} _{k}} sont des points donnés de l'espace des variables explicatives. Ainsi, contrairement à la régression locale, chaque fonction K ( x X k ) {\displaystyle K(\mathbf {x} -\mathbf {X} _{k})} s'étend sur la totalité de l'espace, mais est centrée sur un point X k {\displaystyle \mathbf {X} _{k}} donné. Il n'y a donc pas de problème de continuité.

Estimation par projection

On suppose pour simplifier que l'on n'a qu'une variable explicative x {\displaystyle x} , et que x {\displaystyle x} et y {\displaystyle y} sont dans [0 ; 1]. On considère une base orthonormée ( φ 1 , φ 2 , ) {\displaystyle (\varphi _{1},\varphi _{2},\ldots )} de l'espace des fonctions de carré sommable dans [0 ; 1]. On considère une sous-famille finie ( φ 1 , φ 2 , , φ k ) {\displaystyle (\varphi _{1},\varphi _{2},\ldots ,\varphi _{k})} .

La projection orthogonale d'une fonction quelconque g {\displaystyle g} sur φ i {\displaystyle \varphi _{i}} est

g , φ i = 0 1 g ( x ) φ i ( x ) d x {\displaystyle \langle g,\varphi _{i}\rangle =\int _{0}^{1}g(x)\cdot \varphi _{i}(x)\mathrm {d} x}

dans le cas du prédicteur f {\displaystyle f} , on a l'approximation

g , φ i 1 n j = 1 n y j φ i ( x j ) = β i {\displaystyle \langle g,\varphi _{i}\rangle \simeq {\frac {1}{n}}\sum _{j=1}^{n}y^{j}\cdot \varphi _{i}(\mathbf {x} ^{j})=\beta _{i}}

et le prédicteur est donc défini par :

f = i = 1 k β i φ i {\displaystyle f=\sum _{i=1}^{k}\beta _{i}\varphi _{i}} .

On peut par exemple utiliser une base de Fourier ou bien des ondelettes.

Notes et références

  • (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Nonparametric regression » (voir la liste des auteurs).

Bibliographie

  • Emmanuel Flachaire et Ibrahim Ahamada, Économétrie non paramétrique, Paris, Economica, coll. « Corpus Économie », , 1re éd., 152 p. (ISBN 978-2-7178-5614-9)
  • (en) John Fox et Sanford Weisberg, « Nonparametric Regression in R (web appendix) », dans An R Companion to Applied Regression, Sage, , 2e éd. (ISBN 978-1412975148, lire en ligne [PDF])

Voir aussi

Liens externes

  • [PDF] « Apprentissage non paramétrique en régression », sur WikiStat (Université de Toulouse) (consulté le )
  • icône décorative Portail des probabilités et de la statistique