重回帰分析の回帰係数に関するt検定

データ分析
データ分析統計計量経済学
0

重回帰分析では、どの指標(説明変数)が目的変数に影響を与えているのか調べたいことがある。
このとき、回帰係数を仮説検定(t検定)することで重要度が分かる。

本記事ではこの仮説検定についてざっくりメモする。

スポンサーリンク

問題設定

重回帰分析では、目的変数 $y$ を説明変数 $x_1, x_2, \dots, x_n$ を用いて、
$$Y= \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n + \epsilon $$
と表現する。
$\epsilon$ は誤差項であり、$\beta_0, \beta_1, \beta_2, \dots, \beta_n$ が関係の重要度を表す回帰係数である。

さて、それぞれの説明変数 $X_1, X_2, \dots, X_n$ が目的変数 $Y$ に影響を与えているかどうかを調べたい。

このとき、個々の回帰係数が $\beta_i =0$ となるかどうかを調べれば良い。
なぜならば、 $\beta_i =0$ であると説明変数 $X_i$ がどんな値でも目的変数 $Y$ に影響を与えないからである。

したがって、個々の回帰係数に関して、

帰無仮説 $H_0:~\beta_i=0~(i=1,2,\dots,n)$
対立仮説 $H_1:~\beta_i \neq 0~(i=1,2,\dots,n)$

として仮説検定を行う。
帰無仮説が棄却された $\beta_i$ に対応する説明変数 $X_i$ が目的変数 $Y$ には影響を与える(関係性がある)ということになる。

スポンサーリンク

仮説検定

t値を調べることで仮説検定を行うことができる。
t値とは一般的に、
$$t_i=\frac{\beta_i – a}{se(\beta_i)} $$
と表される。
$a$ は仮説で指定された定数であり、今回であれば $a=0$ である。
$se(\beta_i)$ は $\beta_i$ の標準誤差である。(重回帰分析の標準誤差は少々煩雑なので、時間があれば追記する)

すなわち、今回 t値は「回帰係数を標準誤差で割ったもの」ということができる。
t値の絶対値が大きいほど $\beta_i=0$ となる確率は低くなる。(標本数が多く自由度が大きくなる計量経済学の分野では、t値の絶対値がおおよそ2を越えれば良いと言われている。)
ちなみに、自由度が無限大のt分布は標準正規分布 ${\rm N}(0,1)$ である。

次に有意水準 $\alpha$ を決め、t分布からp値(t値の絶対値より外側の領域の面積 $\times 2$)を求める。
通常であれば $\alpha=0.01,0.05,0.1$ などが使われることが多い。
p値がこれらの値より低い場合、帰無仮説は棄却され、説明変数 $X_i$ は目的変数 $Y$ に影響を与えていることになる。

ここで、p値がこれらの値より高く、帰無仮説が棄却されなくても、「説明変数 $X_i$ は目的変数 $Y$ に影響を与えない」とは言い切れない。
これは、帰無仮説が棄却することを主な内容としているためであり、これは論理学でいう背理法を用いている。
したがって、棄却されなかったからといって、積極的に支持できるわけではないため、「必ずしも影響を与えるわけではない」とか「有意ではない」くらいに留めておくべきである。

F検定(おまけ)

t検定は個々の回帰係数に対して調べているが、複数の回帰係数をまとめて調べる場合はF検定をする。

例えば、

帰無仮説 $H_0:~\beta_1=0$ かつ $\beta_2=0$
対立仮説 $H_1:~\beta_1 \neq 0$ または $\beta_1 \neq 0$

のような仮説を検定する。

参考書籍

2冊の参考書籍を載せておく。

1冊目は統計基礎の教科書で、2冊目は計量経済学の教科書である。
どちらも非常に良書である。

本記事の内容は1冊目の12章と13章、2冊目の2章に書かれている。

スポンサーリンク
H-MEMO

コメント