Loi tronquée

En probabilité et en statistique, une loi tronquée est une loi conditionnelle, dérivée d'une autre loi de probabilité, où l'on ne garde que les tirages sur un intervalle défini. Plus clairement, pour une variable aléatoire X de support réel, dont la fonction de répartition est F, la loi tronquée à l'intervalle réel [a,b] est simplement la loi conditionnelle de X | a ≤ X ≤ b. Ce type de situation survient dans la censure statistique. Par exemple, pour l'étude de la durée passée au chômage, durant le temps d'observation, certaines personnes étaient déjà au chômage au début de l'étude mais retrouvent du travail dans ce laps de temps (troncature à gauche) et d'autres perdent leur emploi et restent au chômage au-delà de la fin de l'étude (troncature à droite). L'étude de la loi tronquée permet alors d'évaluer la fonction de vraisemblance.

Densité

Pour une variable aléatoire X, de support réel, et dont la fonction de répartition est F et la densité f, on peut montrer que le conditionnement de X à l'intervalle réel [a,b] donne :

\mathbb {P} (X\leq x|a\leq X\leq b)={\frac {\mathbb {P} (a\leq X\leq x)}{\mathbb {P} (a\leq X\leq b)}}={\frac {F(x)-F(a)}{F(b)-F(a)}}

avec $x\in [a;b]$ et $F(x)=\int _{-\infty }^{x}f(u)\,\mathrm {d} u$ . La densité g associée est

g(x)=f(x|a\leq X\leq b)={\frac {f(x)}{F(b)-F(a)}}

pour $x\in [a;b]$ , 0 sinon. g est une densité, puisque

\int _{a}^{b}g(x)\,\mathrm {d} x={\frac {1}{F(b)-F(a)}}\int _{a}^{b}f(x)\,\mathrm {d} x=1

Il existe d'autres troncatures ; pour une troncature du type {X > y}, la densité devient

g(x)=f(x|X>y)={\frac {f(x)}{1-F(y)}}

pour $x>y$ et g(x) = 0 partout ailleurs.

Pour une troncature du type $X\leq y$ , la densité est :

g(x)=f(x|X\leq y)={\frac {f(x)}{F(y)}}

pour $x\leq y$ et 0 sinon.

Espérance d'une variable aléatoire tronquée

L'espérance de X conditionnellement à l'événement {X > y} est $\mathbb {E} (X|X>y)={\frac {1}{1-F(y)}}\int _{y}^{\infty }xf(x)\,\mathrm {d} x$ .

Soit alors a et b le support de la variable initiale, pour une fonction $x\mapsto u(x)$ de classe C¹, la fonction $y\mapsto \mathbb {E} (u(X)|X>y)$ présente quelques propriétés :

$\lim _{y\to a}\mathbb {E} (u(X)|X>y)=\mathbb {E} (u(X))$ ;
$\lim _{y\to b}\mathbb {E} (u(X)|X>y)=u(b)$ ;
${\frac {\partial }{\partial y}}[\mathbb {E} (u(X)|X>y)]={\frac {f(y)}{1-F(y)}}[\mathbb {E} (u(X)|X>y)-u(y)]$ ;
$\lim _{y\to a}{\frac {\partial }{\partial y}}[\mathbb {E} (u(X)|X>y)]=f(a)[\mathbb {E} (u(X))-u(a)]$ ;
$\lim _{y\to b}{\frac {\partial }{\partial y}}[\mathbb {E} (u(X)|X>y)]={\frac {1}{2}}u'(b)$ .

On suppose bien sûr que les limites suivantes existent : $\lim _{y\to c}u'(y)=u'(c)$ , $\lim _{y\to c}u(y)=u(c)$ et $\lim _{y\to c}f(y)=f(c)$ où c représente soit a ou b.

Loi normale tronquée

Loi normale centrée réduite tronquée en 2.

Comparaison de deux lois normales centrées réduites tronquées l'une en 1,5 (rouge) l'autre en 2,5 (bleue).

La loi tronquée la plus utilisée est la loi normale tronquée, obtenue à partir d'une loi normale. Elle est utilisée en économétrie dans le modèle tobit et le modèle probit, afin de modéliser respectivement les données censurées et les probabilités de choix binaire.

Si $X\sim {\mathcal {N}}(\mu ,\sigma ^{2})\!$ , et qu'on contraint X à appartenir à l'intervalle [a,b] avec $-\infty \leq a<b\leq \infty$ . Alors la densité tronquée est

f(x;\mu ,\sigma ,a,b)={\frac {\frac {1}{\sigma }}{\Phi ({\frac {b-\mu }{\sigma }})-\Phi ({\frac {a-\mu }{\sigma }})}}\varphi \left({\frac {x-\mu }{\sigma }}\right),

où ${\varphi (\cdot )}\$ est la densité de la loi normale standard et ${\Phi (\cdot )}\$ sa fonction de répartition. On impose la convention que si ${b=\infty }\$ , alors ${\Phi \left({\frac {b-\mu }{\sigma }}\right)=1}$ et de même, si ${a=-\infty }\$ , alors ${\Phi \left({\frac {a-\mu }{\sigma }}\right)=0}$ .

Les moments pour une double troncature sont

\mathbb {E} (X|a<X<b)=\mu +{\frac {\varphi ({\frac {a-\mu }{\sigma }})-\varphi \left({\frac {b-\mu }{\sigma }}\right)}{\Phi \left({\frac {b-\mu }{\sigma }}\right)-\Phi ({\frac {a-\mu }{\sigma }})}}\sigma ,

\operatorname {Var} (X|a<X<b)=\sigma ^{2}\left[1+{\dfrac {{\frac {a-\mu }{\sigma }}\varphi \left({\frac {a-\mu }{\sigma }}\right)-{\frac {b-\mu }{\sigma }}\varphi \left({\frac {b-\mu }{\sigma }}\right)}{\Phi \left({\frac {b-\mu }{\sigma }}\right)-\Phi \left({\frac {a-\mu }{\sigma }}\right)}}-\left({\dfrac {\varphi \left({\frac {a-\mu }{\sigma }}\right)-\varphi \left({\frac {b-\mu }{\sigma }}\right)}{\Phi \left({\frac {b-\mu }{\sigma }}\right)-\Phi \left({\frac {a-\mu }{\sigma }}\right)}}\right)^{2}\right].\!

Pour une simple troncature, ces moments deviennent

\mathbb {E} (X|a<X)=\mu +\sigma \lambda (\alpha )

\operatorname {Var} (X|X>a)=\sigma ^{2}[1-\delta (\alpha )]

avec $\alpha =(a-\mu )/\sigma ,\;\lambda (\alpha )=\varphi (\alpha )/[1-\Phi (\alpha )]\;{\text{et}}\;\delta (\alpha )=\lambda (\alpha )[\lambda (\alpha )-\alpha ].$

Troncature aléatoire

Considérons la configuration suivante : une valeur de troncature, disons t, est tirée au hasard, depuis une densité de probabilité g(t), non-observable. On observe alors une valeur x tirée dans la densité tronquée f (x|t). On souhaite, à partir de l'observation de x, mieux connaître la densité de t.

Par définition, on a déjà :

f(x)=\int _{x}^{\infty }f(x|t)g(t)\,\mathrm {d} t

F(a)=\int _{-\infty }^{a}\left[\int _{x}^{\infty }f(x|t)g(t)\,\mathrm {d} t\right]\,\mathrm {d} x

t doit être plus grand que x, et par conséquent, lorsqu'on intègre sur t, il faut poser x comme borne inférieure.

Par le théorème de Bayes :

g(t|x)={\frac {f(x|t)g(t)}{f(x)}}

qui devient

g(t|x)={\frac {f(x|t)g(t)}{\displaystyle \int _{x}^{\infty }f(x|t)g(t)\,\mathrm {d} t}}

Exemple : deux variables uniformes

En supposant que t est uniformément distribuée sur [0;T] et que X|t est aussi uniformément distribuée, cette fois-ci sur [0;t]. Soit g(t) et f (x|t) les densités décrivant respectivement t et x. On suppose observer une valeur de x, et la distribution de t sachant x est

g(t|x)={\frac {f(x|t)g(t)}{f(x)}}={\frac {1}{t(\ln(t)-\ln(x))}}\quad {\text{ pour }}t>x.

Voir aussi

Références

Greene, William H. (2003). Econometric Analysis (5th ed.). Prentice Hall. (ISBN 0-13-066189-9)
Norman L. Johnson and Samuel Kotz (1970). Continuous univariate distributions-1, chap. 13. John Wiley & Sons.

v · m

Lois de probabilité (liste)

Lois discrètes

à support fini

0 paramètre de forme	Dirac Rademacher
1 paramètre de forme	Benford Bernoulli uniforme discrète
2 paramètres de forme	binomiale Zipf
3 paramètres de forme	bêta-binomiale hypergéométrique
N paramètres de forme	multinomiale Poisson binomiale

à support infini

0 paramètre de forme	Gauss-Kuzmin
1 paramètre de forme	géométrique logarithmique Poisson Yule-Simon zêta
2 paramètres de forme	binomiale négative Conway-Maxwell-Poisson Skellam
3 paramètres de forme	bêta-binomiale négative binomiale négative étendue Delaporte

Lois absolument continues

à support compact

0 paramètre de forme	arc sinus cosinus surélevé demi-cercle parabolique uniforme continue Xenakis
1 paramètre de forme	Bates Irwin-Hall triangulaire Kesten-McKay
2 paramètres de forme	bêta Kumaraswamy logit-normale
3 paramètres de forme	bêta décentrée bêta rectangulaire bêta PERT

à support semi-infini

0 paramètre de forme	demi-logistique demi-normale exponentielle Lévy normale repliée Rayleigh
1 paramètre de forme	χ χ² Davis Erlang Fréchet Gamma Gompertz avec dérive inverse-χ² inverse-gamma inverse-gaussienne log-Cauchy log-Laplace log-logistique log-normale Nakagami normale généralisée v2 Pareto Rice Weibull
2 paramètres de forme	χ non centrée χ² non centrée Benktander I Benktander II bêta prime Burr Dagum Fisher Gamma généralisée inverse-gaussienne généralisée normale tronquée
3 paramètres de forme	bêta prime généralisée
N paramètres de forme	hyper-exponentielle hypo-exponentielle

à support infini

0 paramètre de forme	Cauchy Gumbel Holtsmark Landau Laplace logistique normale sécante hyperbolique Slash Voigt
1 paramètre de forme	Gompertz normale asymétrique normale généralisée v1 Student
2 paramètres de forme	géométrique stable stable z de Fisher