Excelで学ぶ統計講座(初級)

重回帰分析における変数選択

本章で用いる実習用ファイル

ある集団から無作為に選んだ326人に学力テストを行い、その点数を記録し、さらに受験者のさまざまな属性と合わせて結果を分析する。得点と身長・年齢・性別の関係について回帰分析を行う。ただし不要な変数は除去し、最適モデルを選択したい。

モデルに投入可能な説明変数の候補が複数ある場合、説明変数の取捨選択を行う。

変数

Excelなどモデル最適化機能を持たないソフトウェアで自分で変数選択・モデル選択を行う際には変数減少法がもっとも簡便な方法である。

最初に候補変数をすべて投入したモデルを作り、そこから不要な変数を減らしていく。

※ダミー変数はこの変数選択基準からは外す。

候補変数をすべて投入したモデルの回帰分析結果

「身長」のF値が2未満なので、「身長」を外して「年齢」「男」で回帰分析を行う。

身長を外した回帰分析結果

補正R2が「身長」を省いたモデルの方が大きい(0.9585,0.9586)。年齢と性別を説明変数としたモデルを採択する。

「得点」を目的変数、「年齢」「身長」「性別」を説明変数とする重回帰分析を行った。

「性別」は男性を1，女性を0とするダミー変数とした上で説明変数に投入し、変数減少法でモデルの選択を行い、補正R2の値より「年齢」「性別」モデルを採択した。

重回帰分析の結果は分散分析よりF(2,323)=3763.30, p<.001で有意であった。

偏回帰係数は「年齢」が6.65、「性別(男性)」が-1.85でいずれも有意である。これより年齢が1歳上がれば6.65点上昇し、また男性より女性の方が1.85点高くなる傾向が見られた。