Excelで学ぶ統計講座(初級)

ダミー変数を用いた重回帰分析

本章で用いる実習用ファイル

excelLinest3

ある集団から無作為に選んだ326人に学力テストを行い、その点数を記録し、さらに受験者のさまざまな属性と合わせて結果を分析する。得点と身長・年齢・性別の関係について回帰分析を行う。

説明変数に性別(男性・女性の2値)というカテゴリー変数が加わった。

試験結果と受験者属性
	A	B	C	D	E	F
1	no	marks	height	age	male	gender
2	1	50	122.06	8.6		male
3	2	76	153.21	12.0		female
4	3	43	117.53	7.2		male
5	4	51	127.56	8.4		female
6	5	30	109.83	6.0		male
…
被験者諸属性と試験結果(架空データ)

変数

marks(比例尺度): B2:B327
height(比例尺度): C2:C237
age(比例尺度): D2:D237
male(名義尺度): E2:E237
gender(名義尺度): E2:E237

ダミー変数

カテゴリー変数を回帰分析に組み入れるためには、数値化しなければならない。このとき変数内の値(水準)を独立した変数とし、1,0の2値に変換する。新たに作られる変数は水準数 - 1である。すべての水準を変数にしてしまうと一つの変数がその他の変数で決定可能になってしまい、独立性をもてない（分析が出来なくなる）。

信号	赤	黄
赤	1	0
黄	0	1
青	0	0

「青」は「赤」でも「黄」でもないものとして決定するので、「青」変数は作らない。

今回「性別」は「male」「female」の2水準なので、新たに作る変数は一つ（「male」ないし「female」）である。

試験結果と受験者属性
	A	B	C	D	E	F
1	no	marks	height	age	male	gender
2	1	50	122.06	8.6	=IF(gender=E1,1,0)	male
3	2	76	153.21	12.0	0	female
4	3	43	117.53	7.2	1	male
5	4	51	127.56	8.4	0	female
6	5	30	109.83	6.0	1	male
…

回帰分析

LINEST関数
		H	I	J	K	L	M
			male(E列)	age(D列)	height(C列)
20	1	傾き	=LINEST(marks,C2:E327,TRUE,TRUE)	6.71	-0.01	-3.57	切片
21	2	傾きの標準誤差	0.32	0.21	0.03	2.51	切片の標準誤差
22	3	決定係数	0.96	2.87	#N/A	#N/A	推定値の標準誤差
23	4	F値	2501.16	322.00	#N/A	#N/A	残差自由度
24	5	回帰変動	61835.07	2653.56	#N/A	#N/A	残差変動
			1	2	3	4

身長・年齢・性別を説明変数とする得点に対する重回帰式

y(得点) = -3.568386386 + -0.009409179*x1(身長) + 6.711780834*x2(年齢) + -1.854224321*x3(性別.男)

身長の係数が負の値なので身長が高ければ得点が下がる(身長1cmに付き得点は0.009点下がる)。
年齢の係数が正の値なので年齢が高ければ得点も上がる(年齢1歳に付き得点は6.711点上がる)。
「男」係数が負の値なので男性であれば得点が下がる(女に比べて男は1.854点下がる)。

分散分析

分散分析
	H	I	J	K	L	M

8	因子	変動	自由度	分散	F	p値
9	回帰	=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),5,1)	3	=I9/J9	=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),4,1)	0.00%
10	残差	=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),5,2)	=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),4,2)	=I10/J10
11	全体	=I9+I10	=J9+J10	=I11/J11

説明変数の変化によって目的変数も変化する。

回帰係数の有意性検定

回帰分析
	H	I	J	K	L	M

14	変数	係数	標準誤差	標準化回帰係数	t	p値
15	切片a	=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),1,4)	=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),2,4)		=I15/J15	15.60%
16	身長b	=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),1,3)	=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),2,3)		=I16/J16	76.51%
17	年齢b	=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),1,2)	=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),2,2)		=I17/J17	0.00%
18	男b	=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),1,1)	=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),2,1)		=I17/J17	0.00%

各説明変数(身長,年齢,男)の傾きとその有意性が重要である。

身長の回帰係数のp値…0.155998134←有意ではない
年齢の回帰係数のp値…0.0000000←1%水準で有意である
男の回帰係数のp値…0.0000000←1%水準で有意である

年齢・男が有意となっている。「年齢が1歳上がれば点数が6.71点上がり、男であれば点数が1.85点下がる」傾向が読み取れる。

標準化回帰係数

回帰分析
	H	I	J	K	L	M

14	変数	係数	標準誤差	標準化回帰係数	t	p値
15	切片a	-3.57	2.51		-1.42	15.60%
16	身長b	-0.01	0.03	=I16*STDEV.S(height)/STDEV.S(marks)	-0.30	76.51%
17	年齢b	6.71	0.21	=I17*STDEV.S(age)/STDEV.S(marks)	32.67	0.00%
18	男b	-1.85	0.32	-	-5.82	0.00%

傾きbの分母(説明変数の変動)・分子（目的変数の変動）を各々標準化した(x,yのばらつきの規模を揃えた)ものが標準化回帰係数。

傾き(回帰係数)は変数ごとの大小比較は出来ないが、標準化回帰係数は大小比較可である。

ダミー変数(男)は標準化回帰係数は求めない(無意味)。

身長の標準化回帰係数…-0.00902
年齢の標準化回帰係数…0.98418

得点にあたえる影響は「年齢」 > 「身長」

モデルの概要

回帰式がデータにどの程度適合しているかを示す。

概要
	H	I

2	相関係数r	=SQRT(I3)
3	決定係数R2	=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),3,1)
4	補正R2	=1 - K10/K11
5	推定値の標準誤差	=INDEX(LINEST(marks,C2:E327,TRUE,TRUE),3,2)

決定係数: 0.9589
補正R2: 0.9585

性別変数を加える前のモデル(補正R2:0.9542)よりも適合度は上がっている。