Excelで学ぶ統計講座(初級)

単回帰分析

本章で用いる実習用ファイル

ある集団から無作為に選んだ326人に学力テストを行い、その点数を記録し、さらに受験者のさまざまな属性と合わせて結果を分析する。今回は得点と年齢の関係について考えを進める。

試験結果と受験者属性
ABCDE
1nomarksheightageexpected
2150122.068.6
3276153.2112.0
4343117.537.2
5451127.568.4
6530109.836.0
被験者諸属性と試験結果(架空データ)
変数
marks(比例尺度)
B2:B327
age(比例尺度)
D2:D237
expected(比例尺度)
E2:E237

回帰分析とはある一つの量的変数の値について、一つないしは複数の変数との関係をモデル化する分析手法である。

最小二乗法と近似直線

散布図上に実測値)と直線(......)のy軸方向の残差()の二乗和を最小にするような直線を引く(最小二乗法)。

最小二乗法の説明図

これが近似直線である。この直線の性質から変数間の関係を見ていくことになる。

相関係数自体はどちらの変数をx軸に持ってくるかは影響しないが、この直線に関してはどちらをxと置き、どちらをyと置くかで式は変わる。

x独立変数説明変数
y従属変数結果変数・目的変数

回帰分析では従属変数(結果変数)は一つ、独立変数(説明変数)は1つないし複数とる。

今回は年齢を説明変数とする。

回帰直線

回帰分析における近似直線を回帰直線と呼ぶ。回帰直線は傾きと切片によりあたえられる。独立変数が複数取れるので直線の式は一般に

y = a + b1x1 + b2x2 + … + bnxn

であたえられる。今回は説明変数は年齢のみなので

y = a + bx

切片aと傾きbは相関係数における近似直線と同じ。

  • 傾きbは長方形の面積(共分散)正方形の面積(xの分散)の比である。
  • 切片aは目的変数yの平均から長方形の縦の長さを減じたものである。
回帰直線
JK
2年齢の偏差平方和=SUM((age-AVERAGE(age))^2)
3点数・年齢偏差積和=SUM((marks-AVERAGE(marks))*(age-AVERAGE(age)))
4点数~年齢傾きb=K3/K2
5点数~年齢切片a=AVERAGE(marks)-K4*AVERAGE(age)
回帰式(点数の予期値)
ABCDE
1nomarksheightageexpected
2150122.068.6=K5+K4*age
3276153.2112.074.67
4343117.537.242.69
5451127.568.450.69
6530109.836.034.70

分散分析

分散分析表
変動
  • 回帰変動…予測値と平均値とのズレ
  • 残差変動…実測値と予測値とのズレ
  • 全体変動…実測値と平均値のとのズレ
自由度
  • 回帰…説明変数の数
  • 残差…年齢のサンプルサイズ - 1 - 説明変数の数
  • 全体…年齢のサンプルサイズ - 1
  • 回帰変動は1要因分散分析の因子(集団間)変動に相当
  • 残差変動は1要因分散分析の残差(集団内)変動に相当
  • 全体変動は1要因分散分析の全体変動に相当

分散分析の説明図

分散分析
GHIJKL
8因子変動自由度分散Fp値
9回帰=SUM((expected - AVERAGE(marks))^2)161556.246801.370.00%
10残差=SUM((marks- expected)^2)3249.05
11全体=SUM((marks - AVERAGE(marks))^2)325198.43

この分散分析の帰無仮説は「説明変数の変動によっては目的変数の値は変動しない」。因子分散(説明変数が因子となる分散)が残差分散に比べて十分に大きければ帰無仮説は棄却される。すなわち説明変数の変化によって目的変数も(一定)変化する、という結論が得られる。

回帰係数の有意性検定

回帰分析
GHIJKL
14変数係数標準誤差標準化回帰係数tp値
15切片a-5.280.68-7.780.00%
16年齢b6.66=SQRT(J10/VAR.S(age)/I11)82.470.00%
  • 回帰係数の標準誤差は「説明変数の分散が等しいとしたときの残差の分散J10の大きさ」を有効なデータの大きさ(全体自由度I11)で割ったものの平方根である。
  • 検定統計量tは「係数/標準誤差」
  • 帰無仮説を「bが0と異なる値を取るのは偶然である」とする両側検定

このt検定により、bが0と異なる値を持つ、すなわち傾きを持つ、という結論が得られる。

標準化回帰係数

回帰分析
GHIJKL
14変数係数標準誤差標準化回帰係数tp値
15切片a-5.280.68-7.780.00%
16年齢b6.660.08=H16*STDEV.S(age)/STDEV.S(marks)82.470.00%

傾きbの分母(説明変数の変動)・分子(目的変数の変動)を各々標準化した(x,yのばらつきの規模を揃えた)ものが標準化回帰係数。単回帰分析では標準化回帰係数は相関係数と一致する。

モデルの概要

回帰式がデータにどの程度適合しているかを示す。

概要
GH
2相関係数r0.98
3決定係数R2=1 - H10/H11
4補正R2=1 - J10/J11
5推定値の標準誤差=SQRT(J10)
決定係数R2
データの散らばり(変動)に回帰式がどの程度寄与しているかを示す。
=1 - 残差変動/全体変動
補正R2
決定係数を説明変数の数で調整したものである(説明変数を増やせば寄与率は上がる)。
=1 - 残差分散/全体分散
推定値の標準誤差
残差分散の平方根を取ったものである。
=SQRT(残差分散)

LINEST(目的変数, 説明変数, TRUE, TRUE)

LINEST関数を用いると、回帰分析の結果の主要な値が出力される(スピル配列)。

LINEST関数
GHIJ
19傾き=LINEST(marks,age,TRUE,TRUE)-5.28切片
20傾きの標準誤差0.080.68切片の標準誤差
21決定係数0.953.01推定値の標準誤差
22F値6801.37324.00残差自由度
23回帰変動61556.242932.38残差変動