単回帰分析
- 本章で用いる実習用ファイル
ある集団から無作為に選んだ326人に学力テストを行い、その点数を記録し、さらに受験者のさまざまな属性と合わせて結果を分析する。今回は得点と年齢の関係について考えを進める。
A | B | C | D | E | ||
---|---|---|---|---|---|---|
1 | no | marks | height | age | expected | |
2 | 1 | 50 | 122.06 | 8.6 | ||
3 | 2 | 76 | 153.21 | 12.0 | ||
4 | 3 | 43 | 117.53 | 7.2 | ||
5 | 4 | 51 | 127.56 | 8.4 | ||
6 | 5 | 30 | 109.83 | 6.0 | ||
… | ||||||
被験者諸属性と試験結果(架空データ) |
回帰分析とはある一つの量的変数の値について、一つないしは複数の変数との関係をモデル化する分析手法である。
最小二乗法と近似直線
散布図上に実測値(●)と直線(......)のy軸方向の残差(―)の二乗和を最小にするような直線を引く(最小二乗法)。
これが近似直線である。この直線の性質から変数間の関係を見ていくことになる。
相関係数自体はどちらの変数をx軸に持ってくるかは影響しないが、この直線に関してはどちらをxと置き、どちらをyと置くかで式は変わる。
x | 独立変数 | 説明変数 |
y | 従属変数 | 結果変数・目的変数 |
回帰分析では従属変数(結果変数)は一つ、独立変数(説明変数)は1つないし複数とる。
今回は年齢を説明変数とする。
回帰直線
回帰分析における近似直線を回帰直線と呼ぶ。回帰直線は傾きと切片によりあたえられる。独立変数が複数取れるので直線の式は一般に
y = a + b1x1 + b2x2 + … + bnxn
であたえられる。今回は説明変数は年齢のみなので
y = a + bx
切片aと傾きbは相関係数における近似直線と同じ。
J | K | |||
---|---|---|---|---|
… | ||||
2 | 年齢の偏差平方和 | =SUM((age-AVERAGE(age))^2) | ||
3 | 点数・年齢偏差積和 | =SUM((marks-AVERAGE(marks))*(age-AVERAGE(age))) | ||
4 | 点数~年齢傾きb | =K3/K2 | ||
5 | 点数~年齢切片a | =AVERAGE(marks)-K4*AVERAGE(age) | ||
… |
A | B | C | D | E | ||
---|---|---|---|---|---|---|
1 | no | marks | height | age | expected | |
2 | 1 | 50 | 122.06 | 8.6 | =K5+K4*age | |
3 | 2 | 76 | 153.21 | 12.0 | 74.67 | |
4 | 3 | 43 | 117.53 | 7.2 | 42.69 | |
5 | 4 | 51 | 127.56 | 8.4 | 50.69 | |
6 | 5 | 30 | 109.83 | 6.0 | 34.70 | |
… |
分散分析
G | H | I | J | K | L | |||
---|---|---|---|---|---|---|---|---|
8 | 因子 | 変動 | 自由度 | 分散 | F | p値 | ||
9 | 回帰 | =SUM((expected - AVERAGE(marks))^2) | 1 | 61556.24 | 6801.37 | 0.00% | ||
10 | 残差 | =SUM((marks- expected)^2) | 324 | 9.05 | ||||
11 | 全体 | =SUM((marks - AVERAGE(marks))^2) | 325 | 198.43 | ||||
この分散分析の帰無仮説は「説明変数の変動によっては目的変数の値は変動しない」。因子分散(説明変数が因子となる分散)が残差分散に比べて十分に大きければ帰無仮説は棄却される。すなわち説明変数の変化によって目的変数も(一定)変化する、という結論が得られる。
回帰係数の有意性検定
G | H | I | J | K | L | |||
---|---|---|---|---|---|---|---|---|
14 | 変数 | 係数 | 標準誤差 | 標準化回帰係数 | t | p値 | ||
15 | 切片a | -5.28 | 0.68 | -7.78 | 0.00% | |||
16 | 年齢b | 6.66 | =SQRT(J10/VAR.S(age)/I11) | 82.47 | 0.00% | |||
- 回帰係数の標準誤差は「説明変数の分散が等しいとしたときの残差の分散J10の大きさ」を有効なデータの大きさ(全体自由度I11)で割ったものの平方根である。
- 検定統計量tは「係数/標準誤差」
- 帰無仮説を「bが0と異なる値を取るのは偶然である」とする両側検定
このt検定により、bが0と異なる値を持つ、すなわち傾きを持つ、という結論が得られる。
標準化回帰係数
G | H | I | J | K | L | |||
---|---|---|---|---|---|---|---|---|
14 | 変数 | 係数 | 標準誤差 | 標準化回帰係数 | t | p値 | ||
15 | 切片a | -5.28 | 0.68 | -7.78 | 0.00% | |||
16 | 年齢b | 6.66 | 0.08 | =H16*STDEV.S(age)/STDEV.S(marks) | 82.47 | 0.00% | ||
傾きbの分母(説明変数の変動)・分子(目的変数の変動)を各々標準化した(x,yのばらつきの規模を揃えた)ものが標準化回帰係数。単回帰分析では標準化回帰係数は相関係数と一致する。
モデルの概要
回帰式がデータにどの程度適合しているかを示す。
G | H | |||
---|---|---|---|---|
2 | 相関係数r | 0.98 | ||
3 | 決定係数R2 | =1 - H10/H11 | ||
4 | 補正R2 | =1 - J10/J11 | ||
5 | 推定値の標準誤差 | =SQRT(J10) | ||
- 決定係数R2
- データの散らばり(変動)に回帰式がどの程度寄与しているかを示す。
=1 - 残差変動/全体変動 - 補正R2
- 決定係数を説明変数の数で調整したものである(説明変数を増やせば寄与率は上がる)。
=1 - 残差分散/全体分散 - 推定値の標準誤差
- 残差分散の平方根を取ったものである。
=SQRT(残差分散)
LINEST(目的変数, 説明変数, TRUE, TRUE)
LINEST関数を用いると、回帰分析の結果の主要な値が出力される(スピル配列)。
G | H | I | J | |||
---|---|---|---|---|---|---|
19 | 傾き | =LINEST(marks,age,TRUE,TRUE) | -5.28 | 切片 | ||
20 | 傾きの標準誤差 | 0.08 | 0.68 | 切片の標準誤差 | ||
21 | 決定係数 | 0.95 | 3.01 | 推定値の標準誤差 | ||
22 | F値 | 6801.37 | 324.00 | 残差自由度 | ||
23 | 回帰変動 | 61556.24 | 2932.38 | 残差変動 | ||