Articles

Probit-model

Maximum likelihood estimationEdit

Voorstel dat gegevensverzameling { y i , x i } i = 1 n {{y_{i},x_{i}}_{i=1}^{n}}

\{y_i,x_i}_{i=1}^n

bevat n onafhankelijke statistische eenheden die overeenkomen met bovenstaand model.

Voor de enkele waarneming geldt, voorwaardelijk voor de vector van de inputs van die waarneming:

P r ( y i = 1 | x i ) = Φ ( x i ′ β ) {\displaystyle Pr(y_{i}=1|x_{i})=\Phi (x_{i}’\beta )}

{\displaystyle Pr(y_{i}=1|x_{i})=Phi (x_{i}'β )}'\beta )}

P r ( y i = 0 | x i ) = 1 – Φ ( x i ′ β ) {\displaystyle Pr(y_{i}=0|x_{i})=1-\Phi (x_{i}’βbeta )}

{\displaystyle Pr(y_{i}=0|x_{i})=1-[Phi (x_{i}'\beta )}'\beta )}

waarbij x i {{i}}

x_{i}

is een vector van K × 1 {\displaystyle K_{i}}

{\displaystyle K\times 1}

ingangen, en β {\displaystyle \beta }

{\beta

is een K × 1 {{\displaystyle K\times 1}}

{\displaystyle K\times 1}

vector van coëfficiënten.

De waarschijnlijkheid van een enkele waarneming ( y i , x i ) {{displaystyle (y_{i},x_{i})}

{\displaystyle (y_{i},x_{i})}

is dan L ( β ; y i , x i ) = Φ ( x i ′ β ) y i ( 1 – y i ) {\displaystyle {L}}(β ;y_{i},x_{i})=\Phi (x_{i}’β )^{y_{i}^{(1-y_{i})}}

{{\displaystyle {{mathcal {L}}(\beta ;y_{i},x_{i})=\Phi (x_{i}'\beta )^{y_{i}}^{(1-y_{i})}}'\beta )^{y_{i}}^{(1-y_{i})}}

In feite, als y i = 1 {{\displaystyle y_{i}=1}}

y_{i}=1

, dan is L ( β ; y i , x i ) = Φ ( x i ′ β ) {\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=\Phi (x_{i}’\beta )}

{\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=\Phi (x_{i}'\beta )}'\beta )}

, en als y i = 0 {\displaystyle y_{i}=0}

y_{i}=0

, dan is L ( β ; y i , x i ) = 1 – Φ ( x i ′ β ) {\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=1-\Phi (x_{i}’\beta )}

{\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=1-\Phi (x_{i}'\beta )}'\beta )}

.

Omdat de waarnemingen onafhankelijk en identiek verdeeld zijn, zal de waarschijnlijkheid van de gehele steekproef, of de gezamenlijke waarschijnlijkheid, gelijk zijn aan het product van de waarschijnlijkheden van de afzonderlijke waarnemingen:

L ( β ; Y , X ) = ∏ i = 1 n ( Φ ( x i ′ β ) y i ( 1 – y i ) ) {\displaystyle {\mathcal {L}}(\beta ;Y,X)=\prod _{i=1}^{n}}left(\Phi (x_{i}’\beta )^{y_{i}}^{(1-y_{i})}right)}

{\displaystyle {\mathcal {L}}(\beta ;Y,X)=[prod _{i=1}^{n}]^{y_{i}}^{(1-y_{i})}'\beta )^{y_{i}}^{(1-y_{i})}\right)}

De gezamenlijke log-likelihood functie is dus

ln L ( β ; Y , X ) = ∑ i = 1 n ( y i ln Φ ( x i ′ β ) + ( 1 – y i ) ln ( 1 – Φ ( x i ′ β ) ) ) {\ln {\mathcal {L}}(\beta ;Y,X)=\sum _{i=1}^{n}{\bigg (}y_{i}\ln \Phi (x_{i}’\beta )+(1-y_{i})\ln \big (}1-\Phi (x_{i}’\beta )}{\bigg )}}.

{\displaystyle \ln {\mathcal {L}}(\beta ;Y,X)=sum _{i=1}^{n}{\bigg (}y_{i}\ln \Phi (x_{i}'\beta )+(1-y_{i})\ln \!{\big (}1-\Phi (x_{i}'\beta )}{\bigg )}}'\beta )+(1-y_{i})\ln \!{\big (}1-\Phi (x_{i}'\beta ){\big )}{\bigg )}}

De schatter β ^ {\displaystyle {{hat {\beta }}}

{{\hat {\beta }}

die deze functie maximaliseert zal consistent, asymptotisch normaal en efficiënt zijn, mits E bestaat en niet singulier is. Men kan aantonen dat deze log-likelihood functie globaal concaaf is in β, en dat standaard numerieke algoritmen voor optimalisatie dus snel naar het unieke maximum zullen convergeren.

Asymptotische verdeling voor β ^ {\displaystyle {\beta }}

{\hat {\beta }}

wordt gegeven door n ( β ^ – β ) → d N ( 0 , Ω – 1 ) , {\displaystyle {\sqrt {n}}({\hat {\beta }}-\beta )} {\darrow {d}} {{\mathcal {N}}(0,\,\Omega ^{-1}),}

[sqrt{n}(\beta - \beta)} {xrightarrow{d}}[\mathcal{N}(0,\,\Omega^{-1}),

waar

Ω = E , Ω ^ = 1 n ∑ i = 1 n φ 2 ( x i ′ β ^ ) Φ ( x i ′ β ^ ) ( 1 – Φ ( x i ′ β ^ ) ) x i x i ′ , {Displaystyle \Omega = \operatornaam {E} {\bigg },\qquad {\hat {\Omega }}={\frac {1}{n}}\sum _{i=1}^{n}{\frac {\varphi ^{2}(x’_{i}{\hat {\beta }})}{\Phi (x’_{i}{\hat {\beta }})(1-\Phi (x’_{i}{\hat {\beta }}))}x_{i}x’_{i},

{Displaystyle \Omega = {E} {\bigg },\qquad {\hat {\Omega }}={\frac {1}{n}}\sum _{i=1}^{n}{\frac {\varphi ^{2}(x'_{i}{\hat {\beta }})}{\Phi (x'_{i}{\hat {\beta }})(1-\Phi (x'_{i}{\hat {\beta }}))}x_{i}x'_{i},'_{i}{\hat {\beta }})}{\Phi (x'_{i}{\hat {\beta }})(1-\Phi (x'_{i}{\hat {\beta }}))}}x_{i}x'_{i},}

en φ = Φ ′ {Displaystyle \varphi =\Phi ‘}

{\displaystyle \varphi =\Phi '}'}

is de kansdichtheidsfunctie (PDF) van de standaardnormale verdeling.

Semi-parametrische en niet-parametrische maximum likelihood methoden voor probit-type en andere verwante modellen zijn ook beschikbaar.

Berkson’s minimum chi-kwadraat methodeEdit

Main article: Minimum chi-kwadraat schatting

Deze methode kan alleen worden toegepast als er veel waarnemingen zijn van de responsvariabele y i {{i}}

y_{i}

met dezelfde waarde van de vector van regressoren x i {\displaystyle x_{i}}

x_{i}

(een dergelijke situatie kan worden aangeduid als “veel waarnemingen per cel”). Meer specifiek kan het model als volgt worden geformuleerd.

Veronderstel dat onder n waarnemingen { y i , x i } i = 1 n {\{y_{i},x_{i}}_{i=1}^{n}}

\{y_i,x_i}_{i=1}^n

er zijn slechts T verschillende waarden van de regressoren, die kunnen worden aangeduid als { x ( 1 ) , … , x ( T ) } {\displaystyle \{x_{(1)},\ldots,x_{(T)}}}

\{x_{(1)},\ldots,x_{(T)}\}

. Laat n t {{t}}

n_t

het aantal waarnemingen met x i = x ( t ) , {{displaystyle x_{i}=x_{(t)},}

x_i=x_{(t)},

en r t {{displaystyle r_{t}}

r_{t}

het aantal van dergelijke waarnemingen met y i = 1 {\displaystyle y_{i}=1}

y_{i}=1

. We nemen aan dat er inderdaad “veel” waarnemingen per elke “cel” zijn: voor elke t , lim n → ∞ n t / n = c t > 0 {{displaystyle t,\lim _{nrightarrow {infty }n_{t}/n=c_{t}>0}

t, \lim_{n \rightarrow \infty} n_t/n = c_t 0

.

Merk op

p ^ t = r t / n t {Displaystyle {{p}}_{t}=r_{t}/n_{t}}

\hat{p}_t = r_t/n_t

σ ^ t 2 = 1 n t p ^ t ( 1 – p ^ t ) φ 2 ( Φ – 1 ( p ^ t ) ) {\displaystyle {\hat {sigma }}_{t}^{2}={\frac {1}{n_{t}}{\frac {p}}_{t}(1-{{p}}_{t})}{\varphi ^{2}{\big (}\Phi ^{-1}({{p}}_{t}){\big )}}}}

\hat_sigma_t^2 = \frac{1}{n_t} \frac{\hat{p}_t(1-\hat{p}_t)}{\varphi^2(\Phi^{-1}(\hat{p}_t)\big)}

Dan is Berkson’s minimale chi-kwadraatschatter is een gegeneraliseerde kleinste kwadratenschatter in een regressie van Φ – 1 ( p ^ t ) {\displaystyle \Phi ^{-1}({hat {p}}_{t})}

Phi^{-1}(\hat{p}_t)

op x ( t ) {\displaystyle x_{(t)}}

x_{(t)}

met gewichten σ ^ t – 2 {\displaystyle {hat {sigma }}_{t}^{-2}}

{{sigma}_t^{-2}

: β ^ = ( ∑ t = 1 T σ ^ t – 2 x ( t ) x ( t ) ′ ) – 1 ∑ t = 1 T σ ^ t – 2 x ( t ) Φ – 1 ( p ^ t ) {\displaystyle {{{{{{{{{{}}}}}={{{{{}}}}}}}{{}}}2}x_{(t)}x’_{(t)}{Bigg )}^{-1}[}]som _{t=1}^{T}{{\hat {sigma }}_{t}^{-2}x_{(t)}]Phi ^{-1}({\hat {p}}_{t})}

\hatbeta = \Bigg( \sum_{t=1}^T \hatsigma_t^{-2}x_{(t)}x'_{(t)}x'_{(t)} \Bigg)^{-1} \sum_{t=1}^T \hat\sigma_t^{-2}x_{(t)}\Phi^{-1}(\hat{p}_t)'_{(t)} \Bigg)^{-1} \sum_{t=1}^T \hat\sigma_t^{-2}x_{(t)}\Phi^{-1}(\hat{p}_t)

Het kan worden aangetoond dat deze schatter consistent is (als n→∞ en T vast), asymptotisch normaal en efficiënt. Het voordeel is de aanwezigheid van een gesloten formule voor de schatter. Het is echter alleen zinvol deze analyse uit te voeren wanneer geen individuele waarnemingen beschikbaar zijn, maar alleen hun geaggregeerde tellingen r t {{t}}

r_{t}

, n t {\displaystyle n_{t}}

n_t

, en x ( t ) {\displaystyle x_{(t)}}

x_{(t)}

(bijvoorbeeld in de analyse van stemgedrag).

Gibbs samplingEdit

Gibbs sampling van een probitmodel is mogelijk omdat regressiemodellen typisch gebruik maken van normale prior verdelingen over de gewichten, en deze verdeling is geconjugeerd met de normale verdeling van de fouten (en dus van de latente variabelen Y*). Het model kan worden beschreven als

β ∼ N ( b 0 , B 0 ) y i ∗ ∣ x i , β ∼ N ( x i ′ β , 1 ) y i = { 1 als y i ∗ > 0 0 anders {\displaystyle {begin{aligned}{\boldsymbol {\beta }}& {sim {\mathcal {N}}(\mathbf {b} _{0},\mathbf {B} _{0})\y_{i}^{\ast}}mid \mathbf {x} _{i},{\boldsymbol {\beta }}&\sim {\mathcal {N}}(\mathbf {x} ‘_{i}{\boldsymbol {\beta }},1)\\y_{i}&={\begin{cases}1&{\text{if }}y_{i}^{\ast }>&{\text{otherwise}}\end{cases}}\end{aligned}}}

-begin{align}-boldsymbol-bèta \sim \mathcal{N}(\mathbf{b}_0, \mathbf{B}_0) \y_i^ast\mid\mathbf{x}_i,\mathbf{x}'_i, 1) \ y_i = \begin{gevallen} 1 \text{als } y_i^ast 0 \ 0 \text{anders}'_i\boldsymbol\beta, 1) \\ y_i & = \begin{cases} 1 & \text{if } y_i^\ast > 0 \\ 0 & \text{otherwise} \end{cases}\end{align}

Hieruit kunnen we de volledige voorwaardelijke dichtheden bepalen die nodig zijn:

B = ( B 0 – 1 + X ′ X ) – 1 β ∣ y ∗ ∼ N ( B ( B 0 – 1 b 0 + X ′ y ∗ ) , B ) y i ∗ ∣ y i = 0 , x i , β ∼ N ( x i′ β , 1 ) y i ∗ ∣ y i = 1 , x i , β ∼ N ( x i ′ β , 1 ) {\displaystyle {begin{aligned}\mathbf {B} &=(\mathbf {B} _{0}^{-1}+\mathbf {X} ‘\mathbf {X} )^{-1} & {sim {\mathcal {N}}(\mathbf {B} (\mathbf {B} _{0}^{-1}\mathbf {b} _{0}+\mathbf {X} ‘\mathbf {y} ^{\ast }),\mathbf {B} )\y_{i}^{\ast }\mid y_{i}=0,\mathbf {x} _{i},{\boldsymbol {\beta }}& {\sim {\mathbf {x} ‘_{i}{\boldsymbol {\beta }},1)\\y_{i}^{\ast }\mid y_{i}=1,{\mathbf {x} _{i},{\boldsymbol {\beta }}& {sim {\mathcal {N}}(\mathbf {x} ‘_{i}{\boldsymbol {\beta }},1)\eind{aligned}}

{\begin{aligned}{\mathbf {B}}=({\mathbf {B}}_{0}^{-1}+{\mathbf {X}}'{\mathbf {X}})^{-1}} {{\mathbf {y}}^{ast}} {sim {mathbf {B}}({\mathbf {B}}}_{0}^{-1}}{\mathbf {X}}'{\mathbf {y}}^{ast})),{\mathbf {B}})\mid y_{i}=0,{\mathbf {x}}_{i},{\mathbf {x}}'_{i}{\moldsymbol \beta },1)\y_{i}^{\ast }mid y_{i}=1,{\mathbf {x}}_{i},{\boldsymbol \beta }}sim {\mathcal {N}}({\mathbf {x}}'_{i}{\boldsymbol \beta },1)\eind{aligned}}'{\mathbf {X}})^{{-1}}\\{\boldsymbol \beta }\mid {\mathbf {y}}^{\ast }&\sim {\mathcal {N}}({\mathbf {B}}({\mathbf {B}}_{0}^{{-1}}{\mathbf {b}}_{0}+{\mathbf {X}}'{\mathbf {y}}^{\ast }),{\mathbf {B}})\\y_{i}^{\ast }\mid y_{i}=0,{\mathbf {x}}_{i},{\boldsymbol \beta }&\sim {\mathcal {N}}({\mathbf {x}}'_{i}{\boldsymbol \beta },1)\\y_{i}^{\ast }\mid y_{i}=1,{\mathbf {x}}_{i},{\boldsymbol \beta }&\sim {\mathcal {N}}({\mathbf {x}}'_{i}{\boldsymbol \beta },1)\end{aligned}}

Het resultaat voor β wordt gegeven in het artikel over Bayesiaanse lineaire regressie, zij het gespecificeerd met andere notatie.

De enige truc zit in de laatste twee vergelijkingen. De notatie {\displaystyle }

is de Iverson bracket, soms geschreven I ( y i ∗ < 0 ) {\mathcal {I}}(y_{i}^{\ast }<0)}

\mathcal{I}(y_i^^ast 0)

of iets dergelijks. Het geeft aan dat de verdeling moet worden afgekapt binnen het gegeven bereik, en op de juiste manier moet worden geschaald. In dit specifieke geval ontstaat een afgeknotte normale verdeling. Bemonstering uit deze verdeling hangt af van de mate van afknotting. Als een groot deel van de oorspronkelijke massa overblijft, kan de bemonstering gemakkelijk worden uitgevoerd door middel van afwijzingsbemonstering: bemonster gewoon een getal uit de niet-afgekorte verdeling en verwerp het als het buiten de door de afknotting opgelegde beperking valt. Als echter slechts een klein deel van de oorspronkelijke massa wordt bemonsterd (bijvoorbeeld als uit een van de staarten van de normale verdeling wordt bemonsterd-bijvoorbeeld als x i ′ β {{\displaystyle \mathbf {x} ‘_{i}{\boldsymbol {\beta }}}

[mathbf{x}'_i}{\boldsymbol\beta'_i\boldsymbol\beta

ongeveer 3 of meer is, en een negatieve steekproef gewenst is), dan zal dit inefficiënt zijn en wordt het noodzakelijk om op andere bemonsteringsalgoritmen terug te vallen. Algemene bemonstering uit de afgeknotte normaal kan worden bereikt met benaderingen van de normale CDF en de probitfunctie, en R heeft een functiertnorm()voor het genereren van afgeknotte-normale steekproeven.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *