回帰分析において最小二乗誤差を使えない場面

データ分析
データ分析回帰分析計量経済学
0

最小二乗誤差は回帰分析におけるパラメータの推定法として最も使われる。
しかし、最小二乗誤差を利用しても望ましい推定量を得られない場合がある。

本記事では、そのような場面についてメモする。

スポンサーリンク

そもそも最も良い推定量とは

最良線形不偏推定量(BLUE)

最も良い推定量のことを最良線形不偏推定量(BLUE, Best Linear Unbiased Estimator)という。
回帰分析では多くの場合、最小二乗誤差によって得た推定量がBLUEとなる。

最小二乗誤差によって推定量を得る手順は、例えば、次の二乗誤差の総和、
$$S=\sum \epsilon_i^2=\sum \left \{ Y_i – \left( \beta_0 + \beta_1 X_i \right) \right \}$$
を最小化する $\hat{\beta}_0,~\hat{\beta}_1$ は次の連立方程式から解析的に求めることができる。
\begin{align}
\begin{cases}
\displaystyle
\frac{\partial S}{\partial \beta_0} &= -2\sum (Y_i -\beta_0 – \beta_1 X_i) =0 \\
\displaystyle
\frac{\partial S}{\partial \beta_1} &= -2\sum (Y_i -\beta_0 – \beta_1 X_i)X_i =0
\end{cases}
\end{align}
結局、解は次のようになり、これらはBLUEである。
\begin{align}
\hat{\beta}_0 &= \bar{Y} – \hat{\beta}_1 \bar{X} \\
\hat{\beta}_1 &= \frac{\sum (X_i – \bar{X})(Y_i – \bar{Y})}{\sum (X_i – \bar{X})^2}
\end{align}

BLUEの重要な特性として、

  • 線形性
    • 線形モデルの推定量であること。
  • 普遍性
    • 推定量の期待値が真の値に等しいこと。
    • 等しくなければ信頼性に欠ける。
  • 効率性
    • 推定量の分散が最小であること。
    • 分散が大きいと標準誤差が大きくなり、統計的に有意な結果が得られない。
  • 一致性
    • サンプルサイズを大きくすると推定量がある値に収束すること。
    • 収束しない推定量は真の値に近づくとは限らないため信頼性に欠ける。

などが挙げられる。

ガウスマルコフの定理とその仮定

ガウスマルコフの定理によると最小二乗誤差で求めた推定値はBLUEとなる。
しかし、以下の仮定が成り立つときである。

  • 誤差項の分散が均一であること
  • 誤差間で相関がないこと
  • 誤差項と説明変数の間で相関がないこと

すなわち、これらの仮定が成立していない場合は、BLUEとはならない。

そこで、具体的にどういう場面でこれらの仮定が成り立たないのか1つずつ見ていく。

スポンサーリンク

誤差項の分散が均一にならない場合

誤差項の分散が均一にならない典型的な例として、

  • 平均値データ
    • 母数が大きいほど分散が小さくなるため、母数が異なる平均値データでは誤差項の分散が均一になりにくい。
  • 線形確率モデル
    • 目的変数が0,1の2値しかとらないモデル。(結局確率としてどちらに近いかが返される)
    • 誤差項の分散が説明変数の大きさによって変わることが知られている。

が挙げられる。

このように誤差項の分散が均一でない場合に、最小二乗誤差で求めた推定値はBLUEの特性のうち効率性がなくなる。

対処法

この場合の対処法としては2種類ある。

まず1つ目は、不均一分散頑健(ロバスト)推定量をいうものを算出する方法である。
分散や標準誤差の算出方法のみを修正するものなので、頻繁に用いられる。

次に、一般化最小二乗法(例えば、加重最小二乗法)を用いる方法である。
これは誤差項の分散が観測値によってどのように異なるかが分かっている場合に有効である。

平均値データの対処例

平均データを用いた推定では、分類 $i$ の母数を $N_i$ として、誤差項の分散が $\sigma^2/N_i$ と表せるとき、 $N_i$ を掛ければこの不均一分散は解決されそうである。
加重最小二乗法では、推定式の両辺に $\sqrt{N_i}$ を掛けて
\begin{align}
\sqrt{N_i}Y_i &= a\sqrt{N_i}+b\sqrt{N_i}X_i + \sqrt{N_i}u_i \\
\Leftrightarrow \quad Y^* &= a\sqrt{N_i}+bX_i^* + u_i^*
\end{align}
としてこれを達成する。
この方法で $a,~b$ は新しい説明変数 $\sqrt{N_i},~\sqrt{N_i}X_i$ の係数として推定され、いずれもBLUEとなる。

線形確率モデルの対処例

ダミー変数を目的変数にした線形確率モデルの場合、目的変数が1になる確率が $P_i$ とすると誤差項の分散は $P_i(1-P_i)$ と表せる。(証明は省略)
加重最小二乗法で推定式に $1/\sqrt{P_i(1-P_i)}$ を掛ければ良さそうだが、そもそも $P_i$ は推定しないと分からない値なのでデッドロックのような状態になる。
そこで、まず最小二乗法で $P_i$ を推定し、その値を用いて加重最小二乗法を用いるといった2段階の手順を踏む手法が取られている。(BLUEにはならないが、分散は小さくなる?)

なお、線形確率モデルでは次の記事のようなプロビットモデルやロジットモデルという非線形モデルを用いるのが通常である。

誤差間で相関がある場合

誤差間で相関がある典型的な例として、

  • 時系列データ
    • 前日の気温が高いと翌日の気温も高いなど誤差項に自己相関が生じやすい。
  • パネルデータ
    • 複数の同一の個人や企業を追跡したもので、横断面データと時系列データの双方を持つ。
      横断面データは大丈夫だが、時系列データがだめ。

が挙げられる。

対処法

一般化最小二乗法を用いることが挙げられる。
時系列データのように自己相関によって誤差間で相関が生まれている場合は、自己相関係数を推定し、その推定量を織り込んだ最小二乗法を適用する。
こうした方法にはコクラン・オーカット法などがある。

パネルデータの場合は、次のような変量効果モデルの推定を行う。
$$Y_{it}=a+bX_{it}+u_{it} = a+bX_{it}+(F_i + u_{it})$$
固有効果 $F_i$ によって生じる誤差間の相関を考慮し、複雑な変換を行って最小二乗法を適用する。

誤差項と説明変数の間に相関がある場合

誤差項と説明変数の間で相関がある典型的な例として、

  • 欠落変数バイアス
    • 本来ならば説明変数に含まれるべき変数が欠落していると、推定量が真の値から外れてしまうこと。
    • $Y_i=a+bX_i+(cM_i+u)$
    • 上記の説明変数 $X_i,~M_i$ のように、一般に説明変数間には相関があることが多いため、$M_i$ が欠落して誤差項に含まれてしまうと、誤差項と説明変数の間に相関が生まれる。
  • 同時決定バイアス
    • 説明変数が目的関数の決定要因であるようにその逆が成り立つ場合がある。
    • すなわち、 $Y=a+bX+u,~X=\alpha + \beta Y + v$ が両方とも成り立つ場合がある。
    • このとき、説明変数と目的変数が互いに影響を与えるため、誤差項と説明変数に相関が生まれてしまう。
  • 内生性バイアス
    • 同時決定バイアスは説明変数が内生変数になっていると解釈できる。
      目的変数が説明変数の原因になるという逆の因果性が生じているとも解釈できる。(高所得の人が多く消費するのか、多く消費したい人が長く働いて高所得になるのか、など)

などが挙げられる。

このように誤差項と説明変数の間に相関がある場合、最小二乗誤差で求めた推定値はBLUEの特性のうち一致性がなくなる。
一致性がないと推定量の収束が見込めないため、効率性がない場合(誤差項の分散が均一ではない場合)よりも深刻な問題である。

対処法

欠落変数バイアスに関しては可能な限り欠落変数をなくすことが、最も有力でシンプルな対処である。
しかし、説明変数として用いるにはデータが必要で、多くのコストがかかる。
そこで、個人ごとのダミー変数を作成して説明変数に含め、時間によらない個々の固有な要因(固有効果)を誤差項から取り出すことができる。
多くのダミー変数を作るのは大変なので、固定効果モデルの推定という手法がある。
または、最善ではないが代理変数を使用する方法もある。(例えば、労働者の能力についてIQを使用する。)

同時決定・内生性バイアスに関しては推定式の再検討をまず考えるべきである。
内生変数を説明変数に含める場合は、2段階最小二乗法や操作変数法を用いることが一般的である。

参考書籍

2冊の参考書籍を載せておく。

1冊目は統計基礎の教科書で、2冊目は計量経済学の教科書である。
どちらも非常に良書である。

本記事の内容は1冊目の12,13章、2冊目の5,6章に書かれている。
なお、2冊目の中盤以降では最小二乗法を使えない場合の対処法の説明に多くの章が当てられている。

スポンサーリンク
H-MEMO

コメント