Excelで学ぶ統計講座(初級)

ダミー変数を用いた重回帰分析

本章で用いる実習用ファイル

ある集団から無作為に選んだ326人に学力テストを行い、その点数を記録し、さらに受験者のさまざまな属性と合わせて結果を分析する。得点と身長・年齢・性別の関係について回帰分析を行う。

説明変数に性別(男性・女性の2値)というカテゴリー変数が加わった。

試験結果と受験者属性
ABCDEF
1nomarksheightagemalegender
2150122.068.6male
3276153.2112.0female
4343117.537.2male
5451127.568.4female
6530109.836.0male
被験者諸属性と試験結果(架空データ)
変数
marks(比例尺度)
B2:B327
height(比例尺度)
C2:C237
age(比例尺度)
D2:D237
male(名義尺度)
E2:E237
gender(名義尺度)
E2:E237

ダミー変数

カテゴリー変数を回帰分析に組み入れるためには、数値化しなければならない。このとき変数内の値(水準)を独立した変数とし、1,0の2値に変換する。新たに作られる変数は水準数 - 1である。すべての水準を変数にしてしまうと一つの変数がその他の変数で決定可能になってしまい、独立性をもてない(分析が出来なくなる)。

信号
10
01
00

「青」は「赤」でも「黄」でもないものとして決定するので、「青」変数は作らない。

今回「性別」は「male」「female」の2水準なので、新たに作る変数は一つ(「male」ないし「female」)である。

試験結果と受験者属性
ABCDEF
1nomarksheightagemalegender
2150122.068.6=IF(gender=E1,1,0)male
3276153.2112.00female
4343117.537.21male
5451127.568.40female
6530109.836.01male

回帰分析

LINEST関数
HIJKLM
male(E列)age(D列)height(C列)
201傾き=LINEST(marks,C2:E327,TRUE,TRUE)6.71-0.01-3.57切片
212傾きの標準誤差0.320.210.032.51切片の標準誤差
223決定係数0.962.87#N/A#N/A推定値の標準誤差
234F値2501.16322.00#N/A#N/A残差自由度
245回帰変動61835.072653.56#N/A#N/A残差変動
1234
身長・年齢・性別を説明変数とする得点に対する重回帰式
y(得点) = -3.568386386 + -0.009409179*x1(身長) + 6.711780834*x2(年齢) + -1.854224321*x3(性別.男)
  • 身長の係数が負の値なので身長が高ければ得点が下がる(身長1cmに付き得点は0.009点下がる)。
  • 年齢の係数が正の値なので年齢が高ければ得点も上がる(年齢1歳に付き得点は6.711点上がる)。
  • 「男」係数が負の値なので男性であれば得点が下がる(女に比べて男は1.854点下がる)。

分散分析

分散分析
HIJKLM
8因子変動自由度分散Fp値
9回帰=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),5,1)3=I9/J9=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),4,1)0.00%
10残差=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),5,2)=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),4,2)=I10/J10
11全体=I9+I10=J9+J10=I11/J11

説明変数の変化によって目的変数も変化する。

回帰係数の有意性検定

回帰分析
HIJKLM
14変数係数標準誤差標準化回帰係数tp値
15切片a=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),1,4)=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),2,4)=I15/J1515.60%
16身長b=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),1,3)=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),2,3)=I16/J1676.51%
17年齢b=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),1,2)=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),2,2)=I17/J170.00%
18男b=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),1,1)=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),2,1)=I17/J170.00%

各説明変数(身長,年齢,男)の傾きとその有意性が重要である。

  • 身長の回帰係数のp値…0.155998134←有意ではない
  • 年齢の回帰係数のp値…0.0000000←1%水準で有意である
  • 男の回帰係数のp値…0.0000000←1%水準で有意である

年齢・男が有意となっている。「年齢が1歳上がれば点数が6.71点上がり、男であれば点数が1.85点下がる」傾向が読み取れる。

標準化回帰係数

回帰分析
HIJKLM
14変数係数標準誤差標準化回帰係数tp値
15切片a-3.572.51-1.4215.60%
16身長b-0.010.03=I16*STDEV.S(height)/STDEV.S(marks)-0.3076.51%
17年齢b6.710.21=I17*STDEV.S(age)/STDEV.S(marks)32.670.00%
18男b-1.850.32--5.820.00%

傾きbの分母(説明変数の変動)・分子(目的変数の変動)を各々標準化した(x,yのばらつきの規模を揃えた)ものが標準化回帰係数。

傾き(回帰係数)は変数ごとの大小比較は出来ないが、標準化回帰係数は大小比較可である。

ダミー変数(男)は標準化回帰係数は求めない(無意味)。

  • 身長の標準化回帰係数…-0.00902
  • 年齢の標準化回帰係数…0.98418

得点にあたえる影響は「年齢」 > 「身長」

モデルの概要

回帰式がデータにどの程度適合しているかを示す。

概要
HI
2相関係数r=SQRT(I3)
3決定係数R2=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),3,1)
4補正R2=1 - K10/K11
5推定値の標準誤差=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),3,2)
  • 決定係数: 0.9589
  • 補正R2: 0.9585

性別変数を加える前のモデル(補正R2:0.9542)よりも適合度は上がっている。