Probit-Modell
MaximalwahrscheinlichkeitsschätzungBearbeiten
Angenommen, der Datensatz { y i , x i } i = 1 n {\displaystyle \{y_{i},x_{i}\}_{i=1}^{n}}
enthält n unabhängige statistische Einheiten entsprechend dem obigen Modell.
Für die einzelne Beobachtung, bedingt auf den Vektor der Eingaben dieser Beobachtung, haben wir:
P r ( y i = 1 | x i ) = Φ ( x i ′ β ) {\displaystyle Pr(y_{i}=1|x_{i})=\Phi (x_{i}’\beta )}
P r ( y i = 0 | x i ) = 1 – Φ ( x i ′ β ) {\displaystyle Pr(y_{i}=0|x_{i})=1-\Phi (x_{i}’\beta )}
wobei x i {\displaystyle x_{i}}
ist ein Vektor aus K × 1 {\displaystyle K\times 1}
Eingängen, und β {\displaystyle \beta }
ist ein K × 1 {\displaystyle K\times 1}
Vektor von Koeffizienten.
Die Wahrscheinlichkeit für eine einzelne Beobachtung ( y i , x i ) {\displaystyle (y_{i},x_{i})}
ist dann L ( β ; y i , x i ) = Φ ( x i ′ β ) y i ( 1 – y i ) {\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=\Phi (x_{i}’\beta )^{y_{i}}^{(1-y_{i})}}
In der Tat, wenn y i = 1 {\displaystyle y_{i}=1}
, dann ist L ( β ; y i , x i ) = Φ ( x i ′ β ) {\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=\Phi (x_{i}’\beta )}
, und wenn y i = 0 {\displaystyle y_{i}=0}
, dann L ( β ; y i , x i ) = 1 – Φ ( x i ′ β ) {\displaystyle {\mathcal {L}}(\beta ;y_{i},x_{i})=1-\Phi (x_{i}’\beta )}
.
Da die Beobachtungen unabhängig und identisch verteilt sind, ist die Wahrscheinlichkeit der gesamten Stichprobe, oder die gemeinsame Wahrscheinlichkeit, gleich dem Produkt der Wahrscheinlichkeiten der einzelnen Beobachtungen:
L ( β ; Y , X ) = ∏ i = 1 n ( Φ ( x i ′ β ) y i ( 1 – y i ) ) {\displaystyle {\mathcal {L}}(\beta ;Y,X)=\prod _{i=1}^{n}\left(\Phi (x_{i}’\beta )^{y_{i}}^{(1-y_{i})}\right)}
Die gemeinsame Log-Likelihood-Funktion ist somit
ln L ( β ; Y , X ) = ∑ i = 1 n ( y i ln Φ ( x i ′ β ) + ( 1 – y i ) ln ( 1 – Φ ( x i ′ β ) ) ) {\displaystyle \ln {\mathcal {L}}(\beta ;Y,X)=\sum _{i=1}^{n}{\bigg (}y_{i}\ln \Phi (x_{i}’\beta )+(1-y_{i})\ln \!{\big (}1-\Phi (x_{i}’\beta ){\big )}{\bigg )}}
Der Schätzer β ^ {\displaystyle {\hat {\beta }}
, der diese Funktion maximiert, wird konsistent, asymptotisch normal und effizient sein, vorausgesetzt, dass E existiert und nicht singulär ist. Es kann gezeigt werden, dass diese Log-Likelihood-Funktion global konkav in β ist, und daher konvergieren standardmäßige numerische Algorithmen zur Optimierung schnell zum eindeutigen Maximum.
Asymptotische Verteilung für β ^
ist gegeben durch n ( β ^ – β ) → d N ( 0 , Ω – 1 ) , {\displaystyle {\sqrt {n}}({\hat {\beta }}-\beta )\ {\xrightarrow {d}} {\mathcal {N}}(0,\,\Omega ^{-1}),}
wobei
Ω = E , Ω ^ = 1 n ∑ i = 1 n φ 2 ( x i ′ β ^ ) Φ ( x i ′ β ^ ) ( 1 – Φ ( x i ′ β ^ ) ) x i x i ′ , {\displaystyle \Omega =\operatorname {E} , {\displaystyle \Omega }}={\frac {1}{n}}\sum _{i=1}^{n}{\frac {\varphi ^{2}(x’_{i}{\hat {\beta }})}{\Phi (x’_{i}{\hat {\beta }})(1-\Phi (x’_{i}{\hat {\beta }}))}}x_{i}x’_{i},}
und φ = Φ ′ {\displaystyle \varphi =\Phi ‚}
ist die Wahrscheinlichkeitsdichtefunktion (PDF) der Standardnormalverteilung.
Semi-parametrische und nicht-parametrische Maximum-Likelihood-Methoden für Probit-Typen und andere verwandte Modelle sind ebenfalls verfügbar.
Berksons Minimum-Chi-Quadrat-MethodeBearbeiten
Diese Methode kann nur angewendet werden, wenn es viele Beobachtungen der Antwortvariablen y i {\displaystyle y_{i}} gibt.
mit demselben Wert des Vektors der Regressoren x i {\displaystyle x_{i}}
(eine solche Situation kann als „viele Beobachtungen pro Zelle“ bezeichnet werden). Genauer gesagt, kann das Modell wie folgt formuliert werden.
Angenommen, unter n Beobachtungen { y i , x i } i = 1 n {\displaystyle \{y_{i},x_{i}\}_{i=1}^{n}}
es gibt nur T verschiedene Werte der Regressoren, die als { x ( 1 ) , … , x ( T ) } bezeichnet werden können }{x_{(1)},x_{(T)}}}
. Sei n t {\displaystyle n_{t}}
sei die Anzahl der Beobachtungen mit x i = x ( t ) , {\displaystyle x_{i}=x_{(t)},}
und r t {\displaystyle r_{t}}
die Anzahl solcher Beobachtungen mit y i = 1 {\displaystyle y_{i}=1}
. Wir nehmen an, dass es tatsächlich „viele“ Beobachtungen pro „Zelle“ gibt: für jedes t , lim n → ∞ n t / n = c t > 0 {\displaystyle t,\lim _{n\rightarrow \infty }n_{t}/n=c_{t}>0}
.
Hinweis
p ^ t = r t / n t {\displaystyle {\hat {p}}_{t}=r_{t}/n_{t}}
σ ^ t 2 = 1 n t p ^ t ( 1 – p ^ t ) φ 2 ( Φ – 1 ( p ^ t ) ) {\displaystyle {\hat {\sigma }}_{t}^{2}={\frac {1}{n_{t}}}{\frac {{\hat {p}}_{t}(1-{\hat {p}}_{t})}{\varphi ^{2}{\big (}\Phi ^{-1}({\hat {p}}_{t}){\big )}}}}
Dann ist Berksons minimaler Chi-Quadrat-Schätzer ein verallgemeinerter Schätzer der kleinsten Quadrate in einer Regression von Φ – 1 ( p ^ t ) {\displaystyle \Phi ^{-1}({\hat {p}}_{t})}
auf x ( t ) {\displaystyle x_{(t)}}
mit Gewichten σ ^ t – 2 {\displaystyle {\hat {\sigma }}_{t}^{-2}}
: β ^ = ( ∑ t = 1 T σ ^ t – 2 x ( t ) x ( t ) ′ ) – 1 ∑ t = 1 T σ ^ t – 2 x ( t ) Φ – 1 ( p ^ t ) {\displaystyle {\hat {\beta }}={\Bigg (}\sum _{t=1}^{T}{\hat {\sigma }}_{t}^{-2}x_{(t)}x’_{(t)}{\Bigg )}^{-1}\sum _{t=1}^{T}{\hat {\sigma }}_{t}^{-2}x_{(t)}\Phi ^{-1}({\hat {p}}_{t})}
Es kann gezeigt werden, dass dieser Schätzer konsistent (als n→∞ und T fest), asymptotisch normal und effizient ist. Sein Vorteil ist das Vorhandensein einer geschlossenen Formel für den Schätzer. Allerdings ist diese Analyse nur dann sinnvoll, wenn keine Einzelbeobachtungen vorliegen, sondern nur deren aggregierte Anzahl r t {\displaystyle r_{t}}
, n t {\displaystyle n_{t}}
, und x ( t ) {\displaystyle x_{(t)}}
(zum Beispiel bei der Analyse des Wahlverhaltens).
Gibbs-SamplingEdit
Gibbs-Sampling eines Probit-Modells ist möglich, weil Regressionsmodelle typischerweise Normalverteilungen über die Gewichte verwenden, und diese Verteilung ist konjugiert mit der Normalverteilung der Fehler (und damit der latenten Variablen Y*). Das Modell kann beschrieben werden als
β ∼ N ( b 0 , B 0 ) y i ∗ ∣ x i , β ∼ N ( x i ′ β , 1 ) y i = { 1 wenn y i ∗ > 0 0 sonst {\displaystyle {\begin{aligned}{\boldsymbol {\beta }}&\sim {\mathcal {N}}(\mathbf {b} _{0},\mathbf {B} _{0})\\y_{i}^{\ast }\mid \mathbf {x} _{i},{\boldsymbol {\beta }}&\sim {\mathcal {N}}(\mathbf {x} ‚_{i}{\boldsymbol {\beta }},1)\\y_{i}&={\begin{cases}1&{\text{if }}y_{i}^{\ast }>&{\text{otherwise}}\end{cases}}\end{aligned}}}
Daraus können wir die benötigten vollständigen bedingten Dichten bestimmen:
B = ( B 0 – 1 + X ′ X ) – 1 β ∣ y ∗ ∼ N ( B ( B 0 – 1 b 0 + X ′ y ∗ ) , B ) y i ∗ ∣ y i = 0 , x i , β ∼ N ( x i ′ β , 1 ) y i ∗ ∣ y i = 1 , x i , β ∼ N ( x i ′ β , 1 ) {\displaystyle {\begin{aligned}\mathbf {B} &=(\mathbf {B} _{0}^{-1}+\mathbf {X} ‚\mathbf {X} )^{-1}\\boldsymbol {\beta }} ^{\ast }&\sim {\mathcal {N}}(\mathbf {B} (\mathbf {B} _{0}^{-1}\mathbf {b} _{0}+\mathbf {X} ‚\mathbf {y} ^{\ast }),\mathbf {B} )\\\y_{i}^{\ast }\mid y_{i}=0,\mathbf {x} ,_{i},{\boldsymbol {\beta }}&\sim {\mathcal {N}}(\mathbf {x} ‚_{i}{\boldsymbol {\beta }},1)\y_{i}^{\ast }\mid y_{i}=1,\mathbf {x} ,_{i},{\boldsymbol {\beta }}&\sim {\mathcal {N}}(\mathbf {x} ‚_{i}{\boldsymbol {\beta }},1)\end{aligned}}}
Das Ergebnis für β ist im Artikel über Bayessche lineare Regression angegeben, allerdings mit anderer Notation.
Die einzige Tücke liegt in den letzten beiden Gleichungen. Die Notation
ist die Iverson-Klammer, manchmal geschrieben I ( y i ∗ < 0 ) {\displaystyle {\mathcal {I}}(y_{i}^{\ast }<0)}
oder ähnlich. Es zeigt an, dass die Verteilung innerhalb des angegebenen Bereichs abgeschnitten und entsprechend neu skaliert werden muss. In diesem speziellen Fall ergibt sich eine abgeschnittene Normalverteilung. Die Stichprobenziehung aus dieser Verteilung hängt davon ab, wie viel abgeschnitten wird. Wenn ein großer Teil der ursprünglichen Masse verbleibt, kann die Stichprobe einfach mit der Rückweisungsstichprobe durchgeführt werden – nehmen Sie einfach eine Zahl aus der nicht abgeschnittenen Verteilung und verwerfen Sie sie, wenn sie außerhalb der durch die Abschneidung auferlegten Beschränkung liegt. Wenn jedoch nur ein kleiner Teil der ursprünglichen Masse abgetastet wird (z. B. wenn von einem der Schwänze der Normalverteilung abgetastet wird – zum Beispiel wenn x i ′ β {\displaystyle \mathbf {x} ‚_{i}{\boldsymbol {\beta }}
etwa 3 oder mehr ist und eine negative Stichprobe gewünscht wird), dann ist dies ineffizient und es wird notwendig, auf andere Stichprobenalgorithmen zurückzugreifen. Eine allgemeine Stichprobenziehung aus der abgeschnittenen Normalen kann mithilfe von Näherungen an die normale CDF und die Probit-Funktion erreicht werden, und R verfügt über eine Funktionrtnorm()
zum Erzeugen von Stichproben aus der abgeschnittenen Normalen.