Articles

Modèle Probit

Estimation du maximum de vraisemblanceEdit

Supposons que l’ensemble de données {y i , x i } i = 1 n {\displaystyle \{y_{i},x_{i}\}_{i=1}^{n}}.

\{y_i,x_i\}_{i=1}^n

contient n unités statistiques indépendantes correspondant au modèle ci-dessus.

Pour l’observation unique, conditionnellement au vecteur des entrées de cette observation, on a :

P r ( y i = 1 | x i ) = Φ ( x i ′ β ) {\displaystyle Pr(y_{i}=1|x_{i})=\Phi (x_{i}’\beta )}.

{\displaystyle Pr(y_{i}=1|x_{i})=\Phi (x_{i}'\beta )}'\beta )}

P r ( y i = 0 | x i ) = 1 – Φ ( x i ′ β ) {\displaystyle Pr(y_{i}=0|x_{i})=1-\Phi (x_{i}’\beta )}

{{displaystyle Pr(y_{i}=0|x_{i})=1-\Phi (x_{i}'\beta )}'\beta )}

où x i {\displaystyle x_{i}}

x_{i}

est un vecteur de K × 1 {\displaystyle K\times 1}.

{\displaystyle K\times 1}

entrées, et β {\displaystyle \beta }

\beta

est un K × 1 {\displaystyle K\times 1}

{\displaystyle K\times 1}

vecteur de coefficients.

La vraisemblance d’une observation unique ( y i , x i ) {\displaystyle (y_{i},x_{i})}

{\displaystyle (y_{i},x_{i})}

est alors L ( β ; y i , x i ) = Φ ( x i ′ β ) y i ( 1 – y i ) {\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=\Phi (x_{i}’\beta )^{y_{i}}^{(1-y_{i})}}

{\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=\Phi (x_{i}'\beta )^{y_{i}}^{(1-y_{i})}}'\beta )^{y_{i}}^{(1-y_{i})}}

En fait, si y i = 1 {\displaystyle y_{i}=1}

y_{i}=1

, alors L ( β ; y i , x i ) = Φ ( x i ′ β ) {\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=\Phi (x_{i}’\beta )}.

{\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=\Phi (x_{i}'\beta )}'\beta )}

, et si y i = 0 {\displaystyle y_{i}=0}

y_{i}=0

, alors L ( β ; y i , x i ) = 1 – Φ ( x i ′ β ) {\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=1-\Phi (x_{i}’\beta )}

{\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=1-\Phi (x_{i}'\beta )}'\beta )}

. Puisque les observations sont indépendantes et identiquement distribuées, alors la vraisemblance de l’échantillon entier, ou la vraisemblance conjointe, sera égale au produit des vraisemblances des observations individuelles : L ( β ; Y , X ) = ∏ i = 1 n ( Φ ( x i ′ β ) y i ( 1 – y i ) ). {\displaystyle {\mathcal {L}}(\beta ;Y,X)=\prod _{i=1}^{n}\left(\Phi (x_{i}’\beta )^{y_{i}}^{(1-y_{i})}right)}

{displaystyle {\mathcal {L}}(\beta ;Y,X)=\prod _{i=1}^{n}\left(\Phi (x_{i}'\beta )^{y_{i}}^{(1-y_{i})}\right)}'\beta )^{y_{i}}^{(1-y_{i})}\right)}

La fonction de log-vraisemblance conjointe est donc

ln L ( β ; Y , X ) = ∑ i = 1 n ( y i ln Φ ( x i ′ β ) + ( 1 – y i ) ln ( 1 – Φ ( x i ′ β ) ) ). {\displaystyle \ln {\mathcal {L}}(\beta ;Y,X)=\sum _{i=1}^{n}{\bigg (}y_{i}\ln \Phi (x_{i}’\beta )+(1-y_{i})\ln \!{\big (}1-\Phi (x_{i}’\beta ){\{\bigg )}

{\displaystyle \ln {\mathcal {L}}(\beta ;Y,X)=\sum _{i=1}^{n}{\bigg (}y_{i}\ln \Phi (x_{i}'\beta )+(1-y_{i})\ln !{\big (}1-\Phi (x_{i}'\beta ){\big )}{\bigg )}'\beta )+(1-y_{i})\ln \!{\big (}1-\Phi (x_{i}'\beta ){\big )}{\bigg )}}

L’estimateur β ^ {\displaystyle {\hat {\beta }}.

{\hat {\beta }}

qui maximise cette fonction sera cohérent, asymptotiquement normal et efficace à condition que E existe et ne soit pas singulier. On peut montrer que cette fonction de log-vraisemblance est globalement concave en β, et donc que les algorithmes numériques standards d’optimisation convergeront rapidement vers le maximum unique.

Distribution asymptotique pour β ^ {\displaystyle {\hat {\beta }}}.

{\hat {\beta }}

est donnée par n ( β ^ – β ) → d N ( 0 , Ω – 1 ) , {\displaystyle {\sqrt {n}}({\hat {\beta }}-\beta ){\xrightarrow {d}}\ {\mathcal {N}}(0,\,\Omega ^{-1}),

\sqrt{n}(\hat\beta - \beta)\\\\xrightarrow{d}\\{mathcal{N}(0,\,\Omega^{-1}),

Ω = E , Ω ^ = 1 n ∑ i = 1 n φ 2 ( x i ′ β ^ ) Φ ( x i ′ β ^ ) ( 1 – Φ ( x i ′ β ^ ) ) x i x i ′ , {\displaystyle \Omega = nom de l’opérateur {E} {\bigg },\qquad {\hat {\Omega }}={\frac {1}{n}}\sum _{i=1}^{n}{\frac {\varphi ^{2}(x’_{i}{\hat {\beta }})}{\Phi (x’_{i}{\hat {\beta }})(1-\Phi (x’_{i}{\hat {\beta }}))}}x_{i}x’_{i},}

{\displaystyle \Omega =\N-operatorname {E} {\bigg },\qquad {\hat {\Omega }}={\frac {1}{n}}\sum _{i=1}^{n}{\frac {\varphi ^{2}(x'_{i}{\hat {\beta }})}{\Phi (x'_{i}{\hat {\beta }})(1-\Phi (x'_{i}{\hat {\beta }}))}}x_{i}x'_{i},}'_{i}{\hat {\beta }})}{\Phi (x'_{i}{\hat {\beta }})(1-\Phi (x'_{i}{\hat {\beta }}))}}x_{i}x'_{i},}

et φ = Φ ′ {\displaystyle \varphi =\Phi ‘}

{{displaystyle \varphi =\Phi'}'}

est la fonction de densité de probabilité (PDF) de la distribution normale standard.

Des méthodes de maximum de vraisemblance semi-paramétriques et non paramétriques pour les modèles de type probit et autres modèles connexes sont également disponibles.

Méthode du chi carré minimum de BerksonModification

Article principal : Estimation du chi carré minimal

Cette méthode ne peut être appliquée que lorsqu’il existe de nombreuses observations de la variable réponse y i {\displaystyle y_{i}}.

y_{i}

ayant la même valeur du vecteur des régresseurs x i {\displaystyle x_{i}}.

x_{i}

(une telle situation peut être qualifiée de « nombreuses observations par cellule »). Plus précisément, le modèle peut être formulé comme suit .

Supposons que parmi n observations { y i , x i } i = 1 n {\displaystyle \{y_{i},x_{i}\}_{i=1}^{n}}.

\{y_i,x_i\}_{i=1}^n

il n’existe que T valeurs distinctes des régresseurs, que l’on peut désigner par { x ( 1 ) , … , x ( T ) } {\displaystyle \{x_{(1)},\ldots ,x_{(T)}}}

\{x_{(1)},\ldots,x_{(T)}\}

. Soit n t {\displaystyle n_{t}}

n_t

être le nombre d’observations avec x i = x ( t ) , {\displaystyle x_{i}=x_{(t)},}

x_i=x_{(t)},

et r t {\displaystyle r_{t}}

r_{t}

le nombre de ces observations avec y i = 1 {\displaystyle y_{i}=1}.

y_{i}=1

. On suppose qu’il y a bien  » beaucoup  » d’observations par chaque  » cellule  » : pour chaque t , lim n → ∞ n t / n = c t > 0 {\displaystyle t,\lim _{n\rightarrow \infty }n_{t}/n=c_{t}>0}.

t, \lim_{n \rightarrow \infty} n_t/n = c_t 0

.

Note

p ^ t = r t / n t {\displaystyle {\hat {p}}_{t}=r_{t}/n_{t}}

\hat{p}_t = r_t/n_t

σ ^ t 2 = 1 n t p ^ t ( 1 – p ^ t ) φ 2 ( Φ – 1 ( p ^ t ) ) {\displaystyle {\hat {\sigma }}_{t}^{2}={\frac {1}{n_{t}}{\frac {{\hat {p}}_{t}(1-{\hat {p}}_{t})}{\varphi ^{2}{\big (}\Phi ^{-1}({\hat {p}}_{t}){\big )}}}}

\hat\sigma_t^2 = \frac{1}{n_t} \frac{\hat{p}_t(1-\hat{p}_t)}{\varphi^2\big(\Phi^{-1}(\hat{p}_t)\big)}

Alors l’estimateur de Berkson à chi-carré est un estimateur des moindres carrés généralisés dans une régression de Φ – 1 ( p ^ t ) {\displaystyle \Phi ^{-1}({\hat {p}}_{t})}.

\Phi^{-1}(\hat{p}_t)

sur x ( t ) {\displaystyle x_{(t)}}.

x_{(t)}

avec des poids σ ^ t – 2 {\displaystyle {\hat {\sigma }}_{t}^{-2}}

\hat\sigma_t^{-2}

: β ^ = ( ∑ t = 1 T σ ^ t – 2 x ( t ) x ( t ) ′ ) – 1 ∑ t = 1 T σ ^ t – 2 x ( t ) Φ – 1 ( p ^ t ) {\displaystyle {\hat {\beta }}={\Bigg (}sum _{t=1}^{T}{\i1}^{\i1}^{{\i1}^^{-2}x_{(t)}x’_{(t)}{Bigg )}^{-1}\sum _{t=1}^{T}{\hat {\sigma }}_{t}^{-2}x_{(t)}\Phi ^{-1}({\hat {p}}_{t})}

\hat\beta = \Bigg( \sum_{t=1}^T \hat\sigma_t^{-2}x_{(t)}x'_{(t)} \Bigg)^{-1} \sum_{t=1}^T \hat\sigma_t^{-2}x_{(t)}\Phi^{-1}(\hat{p}_t)'_{(t)} \Bigg)^{-1} \sum_{t=1}^T \hat\sigma_t^{-2}x_{(t)}\Phi^{-1}(\hat{p}_t)

On peut montrer que cet estimateur est consistant (comme n→∞ et T fixe), asymptotiquement normal et efficace. Son avantage est la présence d’une formule à forme fermée pour l’estimateur. Cependant, cette analyse n’a de sens que si l’on ne dispose pas des observations individuelles, mais seulement de leurs effectifs agrégés r t {\displaystyle r_{t}}.

r_{t}

, n t {\displaystyle n_{t}}.

n_t

, et x ( t ) {\displaystyle x_{(t)}}

x_{(t)}

(par exemple dans l’analyse du comportement de vote).

Échantillonnage de GibbsModification

L’échantillonnage de Gibbs d’un modèle probit est possible parce que les modèles de régression utilisent généralement des distributions antérieures normales sur les poids, et cette distribution est conjuguée à la distribution normale des erreurs (et donc des variables latentes Y*). Le modèle peut être décrit comme

β ∼ N ( b 0 , B 0 ) y i ∗ ∣ x i , β ∼ N ( x i ′ β , 1 ) y i = { 1 si y i ∗ > 0 0 sinon {\displaystyle {\begin{aligned}{\boldsymbol {\beta }}&\sim {\mathcal {N}}(\mathbf {b} _{0},\mathbf {B} _{0})\y_{i}^{\ast }\mid \mathbf {x} _{i},{\boldsymbol {\beta }}&\sim {\mathcal {N}(\mathbf {x} ‘_{i}{\boldsymbol {\beta }},1)\\y_{i}&={\begin{cases}1&{\text{if }}y_{i}^{\ast }>&{\text{otherwise}}\end{cases}}\end{aligned}}}

\begin{align}\boldsymbol\beta \sim \mathcal{N}(\mathbf{b}_0, \mathbf{B}_0) \\\y_i^^ast\mid\mathbf{x}_i,\boldsymbol\beta \sim \mathcal{N}(\mathbf{x}'_i\boldsymbol\beta, 1) \ y_i = \begin{cases} 1 \text{if } y_i^\ast 0 \\text{sinon} \end{cases}\end{align}'_i\boldsymbol\beta, 1) \\ y_i & = \begin{cases} 1 & \text{if } y_i^\ast > 0 \\ 0 & \text{otherwise} \end{cases}\end{align}

À partir de là, nous pouvons déterminer les densités conditionnelles complètes nécessaires :

B = ( B 0 – 1 + X ′ X ) – 1 β ∣ y ∗ ∼ N ( B ( B 0 – 1 b 0 + X ′ y ∗ ) , B ) y i ∗ ∣ y i = 0 , x i , β ∼ N ( x i ′ β , 1 ) y i ∗ ∣ y i = 1 , x i , β ∼ N ( x i ′ β , 1 ) {\displaystyle {\begin{aligned}\mathbf {B} &=(\mathbf {B} _{0}^{-1}+\mathbf {X} ‘\mathbf {X} )^{-1}\{\mid \mathbf {y}} ^{\ast }&\sim {\mathcal {N}}(\mathbf {B} (\mathbf {B} _{0}^{-1}\mathbf {b} _{0}+\mathbf {X} ‘\mathbf {y} ^{\ast }),\mathbf {B} )\\y_{i}^{\ast }\mid y_{i}=0,\mathbf {x} _{i},{\boldsymbol {\beta }}&\sim {\mathcal {N}(\mathbf {x} ‘_{i}{\boldsymbol {\beta }},1)\y_{i}^{\ast }mid y_{i}=1,\mathbf {x} _{i},{\boldsymbol {\beta }}&\sim {\mathcal {N}(\mathbf {x} ‘_{i}{\boldsymbol {\beta }},1)\end{aligned}}

{\begin{aligned}{\mathbf {B}}=({\mathbf {B}}_{0}^{-1}}+{\mathbf {X}}'{\mathbf {X}})^{-1}}\\{\boldsymbol \beta }\mid {\mathbf {y}}^{\ast }\sim {\mathcal {N}}({\mathbf {B}}({\mathbf {B}_{0}^{{-1}}{\mathbf {b}}_{0}+{\mathbf {X}'{\mathbf {y}}^{\ast }),{\mathbf {B}})\y_{i}^{\ast }{mid y_{i}=0,{\mathbf {x}}_{i},{\boldsymbol \beta }\sim {\mathcal {N}}({\mathbf {x}}'_{i}{\boldsymbol \beta },1)\y_{i}^{\ast }\mid y_{i}=1,{\mathbf {x}}_{i},{\boldsymbol \beta }\sim {\mathcal {N}}({\mathbf {x}}'_{i}{\boldsymbol \beta },1)\end{aligned}}'{\mathbf {X}})^{{-1}}\\{\boldsymbol \beta }\mid {\mathbf {y}}^{\ast }&\sim {\mathcal {N}}({\mathbf {B}}({\mathbf {B}}_{0}^{{-1}}{\mathbf {b}}_{0}+{\mathbf {X}}'{\mathbf {y}}^{\ast }),{\mathbf {B}})\\y_{i}^{\ast }\mid y_{i}=0,{\mathbf {x}}_{i},{\boldsymbol \beta }&\sim {\mathcal {N}}({\mathbf {x}}'_{i}{\boldsymbol \beta },1)\\y_{i}^{\ast }\mid y_{i}=1,{\mathbf {x}}_{i},{\boldsymbol \beta }&\sim {\mathcal {N}}({\mathbf {x}}'_{i}{\boldsymbol \beta },1)\end{aligned}}

Le résultat pour β est donné dans l’article sur la régression linéaire bayésienne, bien que spécifié avec une notation différente.

La seule astuce se trouve dans les deux dernières équations. La notation {\displaystyle }

est la parenthèse d’Iverson, parfois écrite I ( y i ∗ < 0 ) {\displaystyle {\mathcal {I}}(y_{i}^{\ast }<0)}.

\mathcal{I}(y_i^\ast 0)

ou similaire. Il indique que la distribution doit être tronquée dans l’intervalle donné, et remise à l’échelle de manière appropriée. Dans ce cas particulier, on obtient une distribution normale tronquée. L’échantillonnage de cette distribution dépend de l’ampleur de la troncature. Si une grande partie de la masse d’origine est conservée, l’échantillonnage peut être facilement réalisé à l’aide d’un échantillonnage par rejet : il suffit de prélever un nombre dans la distribution non tronquée et de le rejeter s’il se situe en dehors de la restriction imposée par la troncature. Si l’échantillonnage ne porte que sur une petite fraction de la masse initiale, cependant (par exemple, si l’échantillonnage porte sur l’une des queues de la distribution normale – par exemple si x i ′ β {\displaystyle \mathbf {x} ‘_{i}{\boldsymbol {\beta }}}.

\mathbf{x}'_i\boldsymbol\beta'_i\boldsymbol\beta

est d’environ 3 ou plus, et qu’un échantillon négatif est souhaité), alors cette méthode sera inefficace et il devient nécessaire de se rabattre sur d’autres algorithmes d’échantillonnage. L’échantillonnage général à partir de la normale tronquée peut être réalisé à l’aide d’approximations de la FCD normale et de la fonction probit, et R possède une fonctionrtnorm()permettant de générer des échantillons normaux tronqués.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *