Excelで学ぶ統計講座(初級)

単回帰分析

ある集団から無作為に選んだ326人に学力テストを行い、その点数を記録し、さらに受験者のさまざまな属性と合わせて結果を分析する。今回は得点と年齢の関係について考えを進める。

変数

回帰分析とはある一つの量的変数の値について、一つないしは複数の変数との関係をモデル化する分析手法である。

散布図上に実測値（●）と直線(......)のy軸方向の残差(―)の二乗和を最小にするような直線を引く（最小二乗法）。

これが近似直線である。この直線の性質から変数間の関係を見ていくことになる。

相関係数自体はどちらの変数をx軸に持ってくるかは影響しないが、この直線に関してはどちらをxと置き、どちらをyと置くかで式は変わる。

x	独立変数	説明変数
y	従属変数	結果変数・目的変数

回帰分析では従属変数（結果変数）は一つ、独立変数（説明変数）は1つないし複数とる。

今回は年齢を説明変数とする。

回帰分析における近似直線を回帰直線と呼ぶ。回帰直線は傾きと切片によりあたえられる。独立変数が複数取れるので直線の式は一般に

y = a + b1x1 + b2x2 + … + bnxn

であたえられる。今回は説明変数は年齢のみなので

y = a + bx

切片aと傾きbは相関係数における近似直線と同じ。

回帰直線
	J	K
…
2	年齢の偏差平方和	=SUM((age-AVERAGE(age))^2)
3	点数・年齢偏差積和	=SUM((marks-AVERAGE(marks))*(age-AVERAGE(age)))
4	点数~年齢傾きb	=K3/K2
5	点数~年齢切片a	=AVERAGE(marks)-K4*AVERAGE(age)
…

分散分析表

変動

自由度

この分散分析の帰無仮説は「説明変数の変動によっては目的変数の値は変動しない」。因子分散(説明変数が因子となる分散)が残差分散に比べて十分に大きければ帰無仮説は棄却される。すなわち説明変数の変化によって目的変数も（一定）変化する、という結論が得られる。

このt検定により、bが0と異なる値を持つ、すなわち傾きを持つ、という結論が得られる。

傾きbの分母(説明変数の変動)・分子（目的変数の変動）を各々標準化した(x,yのばらつきの規模を揃えた)ものが標準化回帰係数。単回帰分析では標準化回帰係数は相関係数と一致する。

回帰式がデータにどの程度適合しているかを示す。

LINEST関数を用いると、回帰分析の結果の主要な値が出力される(スピル配列)。