単回帰分析
被験者諸属性と試験結果(架空データ)を用いる。
ある集団から無作為に選んだ326人に学力テストを行い、その点数を記録し、さらに受験者のさまざまな属性と合わせて結果を分析する。今回は得点と年齢の関係について考えを進める。
回帰分析とはある一つの量的変数の値について、一つないしは複数の変数との関係をモデル化する分析手法である。
最小二乗法と近似直線
散布図上に実測値(●)と直線(......)のy軸方向の残差(―)の二乗和を最小にするような直線を引く(最小二乗法)。
これが近似直線である。この直線の性質から変数間の関係を見ていくことになる。
相関係数自体はどちらの変数をx軸に持ってくるかは影響しないが、この直線に関してはどちらをxと置き、どちらをyと置くかで式は変わる。
回帰分析では従属変数(結果変数)は一つ、独立変数(説明変数)は1つないし複数とる。
今回は年齢一つを説明変数とする。
散布図と相関係数
散布図からは年齢と点数には正の相関が見られる。年齢が高い時には点数も高い。相関係数とその検定でもその結果は裏付けられる。
相関係数を2乗した決定係数はデータ全体のばらつきに占める2変数が協調するばらつきの割合である。2変数の協調でデータのばらつきがどの程度説明できるかを示している。
回帰直線
回帰分析における近似直線を回帰直線と呼ぶ。回帰直線は傾きと切片によりあたえられる。独立変数が複数取れるので直線の式は一般に
y = a + b1x1 + b2x2 + … + bnxn
であたえられる。今回は説明変数は年齢のみなので
y = a + bx
切片aと傾きbは相関係数における近似直線と同じ。
分散分析
この分散分析の帰無仮説は「説明変数の変動によっては目的変数の値は変動しない」。因子分散(説明変数が因子となる分散)が残差分散に比べて十分に大きければ帰無仮説は棄却される。すなわち説明変数の変化によって目的変数も(一定)変化する、という結論が得られる。
回帰係数の有意性検定
- 回帰係数の標準誤差は「説明変数の分散(Sxx/t.df)が等しいとしたときの残差の分散(e.MS)の大きさ」を有効なデータの大きさ(合計自由度t.df)で割ったものの平方根である。
- 検定統計量tは「回帰係数b/標準誤差」
- 帰無仮説を「bが0と異なる値を取るのは偶然である」とする両側検定
このt検定により、bが0と異なる値を持つ、すなわち傾きを持つ、という結論が得られる。
標準化回帰係数
傾きbの分母(説明変数の変動)・分子(目的変数の変動)を各々標準化した(x,yのばらつきの規模を揃えた)ものが標準化回帰係数。単回帰分析では標準化回帰係数は相関係数と一致する。