重回帰分析における変数選択
- 本章で用いる実習用ファイル
ある集団から無作為に選んだ326人に学力テストを行い、その点数を記録し、さらに受験者のさまざまな属性と合わせて結果を分析する。得点と身長・年齢・性別の関係について回帰分析を行う。ただし不要な変数は除去し、最適モデルを選択したい。
モデルに投入可能な説明変数の候補が複数ある場合、説明変数の取捨選択を行う。
A | B | C | D | E | F | ||
---|---|---|---|---|---|---|---|
1 | no | marks | height | age | male | gender | |
2 | 1 | 50 | 122.06 | 8.6 | 1 | male | |
3 | 2 | 76 | 153.21 | 12.0 | 0 | female | |
4 | 3 | 43 | 117.53 | 7.2 | 1 | male | |
5 | 4 | 51 | 127.56 | 8.4 | 0 | female | |
6 | 5 | 30 | 109.83 | 6.0 | 1 | male | |
… | |||||||
被験者諸属性と試験結果(架空データ) |
変数減少法
Excelなどモデル最適化機能を持たないソフトウェアで自分で変数選択・モデル選択を行う際には変数減少法がもっとも簡便な方法である。
最初に候補変数をすべて投入したモデルを作り、そこから不要な変数を減らしていく。
- 各説明変数からF値(t値の2乗)を計算し、2未満のものの中からもっとも小さな変数を除去して新たに回帰分析を行う。
- 前モデルの「補正R2」と新しいモデルの「補正R2」を比較し、数値が大きい方を採択する。
- 前モデルの「補正R2」 > 新モデルの「補正R2」となるまで繰り返す。
※ダミー変数はこの変数選択基準からは外す。
H | I | |||
---|---|---|---|---|
2 | 相関係数r | 0.9792 | ||
3 | 決定係数R2 | 0.9589 | ||
4 | 補正R2 | 0.9585 | ||
5 | 推定値の標準誤差 | 2.8707 | ||
H | I | J | K | L | M | |||
---|---|---|---|---|---|---|---|---|
8 | 因子 | 変動 | 自由度 | 分散 | F | p値 | ||
9 | 回帰 | 61835.07 | 3 | 20611.69 | 2501.16 | 0.00% | ||
10 | 残差 | 2653.56 | 322 | 8.24 | ||||
11 | 全体 | 64488.63 | 325 | 198.43 | ||||
H | I | J | K | L | M | N | |||
---|---|---|---|---|---|---|---|---|---|
14 | 変数 | 係数 | 標準誤差 | 標準化回帰係数 | t | p値 | F値 | ||
15 | 切片a | -3.57 | 2.51 | -1.42 | 15.60% | =L15:L18^2 | |||
16 | 身長b | -0.01 | 0.03 | -0.00902 | -0.30 | 76.51% | 0.09 | ||
17 | 年齢b | 6.71 | 0.21 | 0.98418 | 32.67 | 0.00% | 1067.52 | ||
18 | 男b | -1.85 | 0.32 | - | -5.82 | 0.00% | 33.82 | ||
「身長」のF値が2未満なので、「身長」を外して「年齢」「男」で回帰分析を行う。
H | I | |||
---|---|---|---|---|
2 | 相関係数r | 0.9792 | ||
3 | 決定係数R2 | 0.9588 | ||
4 | 補正R2 | 0.9586 | ||
5 | 推定値の標準誤差 | 2.8666 | ||
H | I | J | K | L | M | |||
---|---|---|---|---|---|---|---|---|
8 | 因子 | 変動 | 自由度 | 分散 | F | p値 | ||
9 | 回帰 | 61834.33 | 2 | 30917.17 | 3762.30 | 0.00% | ||
10 | 残差 | 2654.29 | 323 | 8.22 | ||||
11 | 全体 | 64488.63 | 325 | 198.43 | ||||
H | I | J | K | L | M | N | |||
---|---|---|---|---|---|---|---|---|---|
14 | 変数 | 係数 | 標準誤差 | 標準化回帰係数 | t | p値 | F値 | ||
15 | 切片a | -4.29 | 0.67 | -6.42 | 0.00% | 41.21 | |||
17 | 年齢b | 6.65 | 0.08 | 0.97583 | 86.43 | 0.00% | 7470.41 | ||
18 | 男b | -1.85 | 0.32 | - | -5.82 | 0.00% | 33.84 | ||
補正R2が「身長」を省いたモデルの方が大きい(0.9585,0.9586)。年齢と性別を説明変数としたモデルを採択する。
考察例
「得点」を目的変数、「年齢」「身長」「性別」を説明変数とする重回帰分析を行った。
「性別」は男性を1,女性を0とするダミー変数とした上で説明変数に投入し、変数減少法でモデルの選択を行い、補正R2の値より「年齢」「性別」モデルを採択した。
重回帰分析の結果は分散分析よりF(2,323)=3763.30, p<.001で有意であった。
偏回帰係数は「年齢」が6.65、「性別(男性)」が-1.85でいずれも有意である。これより年齢が1歳上がれば6.65点上昇し、また男性より女性の方が1.85点高くなる傾向が見られた。