Excelで学ぶ統計講座(初級)

重回帰分析における変数選択

本章で用いる実習用ファイル

ある集団から無作為に選んだ326人に学力テストを行い、その点数を記録し、さらに受験者のさまざまな属性と合わせて結果を分析する。得点と身長・年齢・性別の関係について回帰分析を行う。ただし不要な変数は除去し、最適モデルを選択したい。

モデルに投入可能な説明変数の候補が複数ある場合、説明変数の取捨選択を行う。

試験結果と受験者属性
ABCDEF
1nomarksheightagemalegender
2150122.068.61male
3276153.2112.00female
4343117.537.21male
5451127.568.40female
6530109.836.01male
被験者諸属性と試験結果(架空データ)
変数
marks(比例尺度)
B2:B327
height(比例尺度)
C2:C237
age(比例尺度)
D2:D237
male(名義尺度)
E2:E237
gender(名義尺度)
E2:E237

変数減少法

Excelなどモデル最適化機能を持たないソフトウェアで自分で変数選択・モデル選択を行う際には変数減少法がもっとも簡便な方法である。

最初に候補変数をすべて投入したモデルを作り、そこから不要な変数を減らしていく。

  1. 各説明変数からF値(t値の2乗)を計算し、2未満のものの中からもっとも小さな変数を除去して新たに回帰分析を行う。
  2. 前モデルの「補正R2」と新しいモデルの「補正R2」を比較し、数値が大きい方を採択する。
  3. 前モデルの「補正R2」 > 新モデルの「補正R2」となるまで繰り返す。

※ダミー変数はこの変数選択基準からは外す。

候補変数をすべて投入したモデルの回帰分析結果
概要
HI
2相関係数r0.9792
3決定係数R20.9589
4補正R20.9585
5推定値の標準誤差2.8707
分散分析
HIJKLM
8因子変動自由度分散Fp値
9回帰61835.07320611.692501.160.00%
10残差2653.563228.24
11全体64488.63325198.43
回帰分析
HIJKLMN
14変数係数標準誤差標準化回帰係数tp値F値
15切片a-3.572.51-1.4215.60%=L15:L18^2
16身長b-0.010.03-0.00902-0.3076.51%0.09
17年齢b6.710.210.9841832.670.00%1067.52
18男b-1.850.32--5.820.00%33.82

「身長」のF値が2未満なので、「身長」を外して「年齢」「男」で回帰分析を行う。

身長を外した回帰分析結果
概要
HI
2相関係数r0.9792
3決定係数R20.9588
4補正R20.9586
5推定値の標準誤差2.8666
分散分析
HIJKLM
8因子変動自由度分散Fp値
9回帰61834.33230917.173762.300.00%
10残差2654.293238.22
11全体64488.63325198.43
回帰分析
HIJKLMN
14変数係数標準誤差標準化回帰係数tp値F値
15切片a-4.290.67-6.420.00%41.21
17年齢b6.650.080.9758386.430.00%7470.41
18男b-1.850.32--5.820.00%33.84

補正R2が「身長」を省いたモデルの方が大きい(0.9585,0.9586)。年齢と性別を説明変数としたモデルを採択する。

考察例

「得点」を目的変数、「年齢」「身長」「性別」を説明変数とする重回帰分析を行った。

「性別」は男性を1,女性を0とするダミー変数とした上で説明変数に投入し、変数減少法でモデルの選択を行い、補正R2の値より「年齢」「性別」モデルを採択した。

重回帰分析の結果は分散分析よりF(2,323)=3763.30, p<.001で有意であった。

偏回帰係数は「年齢」が6.65、「性別(男性)」が-1.85でいずれも有意である。これより年齢が1歳上がれば6.65点上昇し、また男性より女性の方が1.85点高くなる傾向が見られた。