トービットモデルとヘーキットモデル

データ分析
データ分析統計計量経済学
0

プロビットモデルやロジットモデルのような離散選択モデルでは潜在変数は観察されず、代わりに、選択を行った行動が観測変数として観察された。

本記事では、潜在変数が条件付きで観測される場合に適用できるトービットモデルとヘーキットモデルについて説明する。

スポンサーリンク

トービットモデル

トービットモデルとは、潜在変数が一定水準を上回るときにはそのまま観測されるものの、一定水準以下のときには0などの特定の数値に変換されて観測されるような変数を目的変数にする場合に適用する。

例えば、サッカー選手の試合の出場時間 $Y_i$ の決定要因を推定することを考える。
潜在的な能力を潜在変数 $Y_i^*$ とすると、その能力が一定水準を超えた選手だけが試合に出場できると考えられる。
この場合、その閾値に達していない選手の出場時間は全て0として観察されるが、$Y_i^*$ は様々であり、出場までわずかな選手もいれば、程遠い選手もいる。
式で表すと、
\begin{align}
Y_i = \left\{
\begin{array}{l}
Y_i^* \quad &\text{if}~ Y_i^* > 0 \\
0 \quad &\text{if}~ Y_i^* \le 0
\end{array}
\right.
\quad \text{ただし、}~Y_i^*=a+bX_i+u_i
\end{align}

上の例では閾値が0であるが、任意の定数とすることができる。

他にも、自動車などの耐久消費財の購入額や、アルバイトの時給などが例として挙げられる。

推定方法

推定式 $Y_i=a+bX_i+u_i$ を考える。
式の導出を省略するが、説明変数 $Y_i$ が正で観察されるときの期待値(条件付き期待値)は次のようにあらわされる。
$$E(Y_i | Y_I>0) = a+bX_i+c\lambda, \quad \lambda_i=\frac{f(a+bX_i)}{F(a+bX_i)}$$
この $\lambda_i$ は逆ミルズ比と呼ばれ、正規分布の確率密度関数と確率分布関数の比で算出される。
これが意味するのは、潜在変数 $Y_i^*$ が観測されず0になる度合いである。

観察されているという事実を1つの情報として積極的に活用することで、分析者には把握できない能力などの要因を逆ミルズ比という代理指標で捉えることができる。

したがって、観測された値のみを使った推定式は次のように変換されるべきであるといえる。
$$Y_i=a+bX_i+c\lambda + u_i$$

しかし、これを最小2乗誤差で推定すると、説明変数 $X_i$ と誤差項 $c\lambda + u_i$ に相関があるため、裁量線形不偏推定量(BLUE)とはならない。
BLUEとなる条件については以下の記事を参照。

したがって、不均一分散を考慮した頑健標準誤差を用いて、最小二乗誤差で推定すると良い。

スポンサーリンク

ヘーキットモデル

ヘーキットモデルとは、潜在変数がある条件を満たすときにはそのまま観察されるものの、条件を満たさないときは観察されないような変数を目的変数にする場合に適用する。
目的変数が部分的にしか観測されないため、ヘーキットモデルはサンプルセレクションモデルとも呼ばれる。

例えば、高齢者の賃金関数を推定する場合を考える。
高齢者の賃金は、就業しているという条件を満たして初めてデータ $Y_i$ として観測されるという、ある特定のサンプルしか観測されていない。
この場合、非就業者の賃金が観測されないことを考慮しないと、後述するサンプルセレクションバイアスが生じつことが懸念される。
これを考慮するには、就業の有無を示すダミー変数 $M_i$ を用いて以下のような式で表す。
\begin{align}
Y_i = \left\{
\begin{array}{l}
Y_i^* \quad &\text{if}~ M_i = 1 \\
.~\text{(unobservable)} \quad &\text{if}~ M_i = 0
\end{array}
\right.
\quad \text{ただし、}~Y_i^*=a+bX_i+u_i
\end{align}

ここで、高齢者の賃金 $Y_i^*$ は個人属性 $X_i$ によって説明されるが、そもそも観測されるのは就業している場合 $M_i = 1$ のみである。
したがって、ヘーキットモデルではどのような要因で観測されるかについても定式化される。
\begin{align}
M_i = \left\{
\begin{array}{l}
1 \quad &\text{if}~ M_i^* > m \\
0 \quad &\text{if}~ M_i^* \le m
\end{array}
\right.
\quad \text{ただし、}~M_i^*=\alpha+\beta X_i+v_i
\end{align}

この式は、高年齢者の就業の有無を示すダミー変数 $M_i$ を目的変数、就業行動に影響を与える変数 $Z_i$ を説明変数としたプロビットモデルとして推定することができる。

以上をまとめると、ヘーキットモデルは就業するかしないかの選択を捉える第1段階と、就業する場合に賃金がどのように決まるかを捉える第2段階から構成される。

推定方法

トーキッドモデルと同様にまずは逆ミルズ比 $\lambda_i$ を算出する。
$Y_i$ が観測される時に1、されない時に0をとるダミー変数 $M_i$ を目的変数、 $Z_i$ を説明変数とするプロビットモデルを最尤推定することによって、逆ミルズ比を算出することができる。
$$Pr(M_i=1)=F(\alpha+\beta Z_i) \quad \rightarrow \quad \lambda=\frac{f(\alpha+\beta Z_i)}{F(\alpha+\beta Z_i)}$$

次に推定された逆ミルズ比を説明変数に加えた、
$$Y_i=a+bX_i+c\lambda + u_i$$
を不均一分散を考慮した頑健標準誤差を用いて、最小二乗誤差で推定する。

この2段階の推定は、目的関数が観測されるか(例えば、就業するか)を捉える第1段階と、観測される場合に目的変数がどのように決まるか(例えば、就業する場合に賃金がどのように決まるか)を捉える第2段階の構造と合致しているため、理解しやすい。

参考書籍

2冊の参考書籍を載せておく。

1冊目は統計基礎の教科書で、2冊目は計量経済学の教科書である。
どちらも非常に良書である。

本記事の内容は2冊目の9章に書かれている。

スポンサーリンク
H-MEMO

コメント