一元配置反復測定分散分析
対応あるサンプルのt検定の変数が3つ以上になったデータは一元配置反復測定分散分析を用いる。
スマートフォン利用時間の変化に関する調査データ(架空データ)を用いる。
ある大学で学生の一日あたりのスマートフォンの利用時間を調査した。学生を無作為で50人抽出し、一週間の平均利用時間を記録する。
調査は同じ学生を対象にある人気ゲームアプリリリース前と直後、そして1ヶ月後の3回実施し、その結果をまとめた(架空調査)。
このデータから人気ゲームアプリリリースとスマホ利用時間の変化について分析せよ。
なまえ | 前 | 直後 | 1ヶ月後 |
---|---|---|---|
後藤 | 202 | 224 | 215 |
松浦 | 184 | 187 | 184 |
藤本 | 223 | 245 | 258 |
… |
分析対象
アプリリリースとの時間関係をスマホ利用時間を変動させる「要因」と考える。そしてデータ一件一件がサンプルである。
サンプルサイズは各要因で等しくなければならない。どの列にも一つでも欠損値があれば、行ごと省く(complete)。これで要因数*サンプルサイズのデータ表が作られる。
要因偏差とサンプル偏差
一元配置要因分散分析においては
- 個々の値 ← 全体の平均 + 要因ごとの平均差 + 誤差(残差)
で個々の値が説明された。データに対応関係があればそれにサンプルごとの平均差が加わる。
- 個々の値 ← 全体の平均 + サンプルごとの平均差 + 要因ごとの平均差 + 誤差(残差)
ある人のある時期の利用時間は「全体の傾向+その人の利用時間の傾向+時期ごとの利用時間の傾向+誤差」で説明できると考える。
なまえ | 前 | 直後 | 1ヶ月後 | サンプル偏差 |
---|---|---|---|---|
後藤 | 202 | 224 | 215 | 後藤平均-全平均 |
松浦 | 184 | 187 | 184 | 松浦平均-全平均 |
藤本 | 223 | 245 | 258 | 藤本平均-全平均 |
… | … | |||
要因偏差 | 前平均-全平均 | 直後平均-全平均 | 一ヶ月後平均-全平均 |
この式での誤差に対する要因ごと・サンプルごとの平均差の比率が大きければ、その平均差は有意であるとする。偏差の比率の有意性は分散比の検定(F検定)で確認される。
要因分散・サンプル分散・残差分散
要因偏差、サンプル偏差、残差から各々偏差平方和(変動)を求める。
そして目的の分散は「変動 / 自由度」である。
F検定
あとは要因分散 / 残差分散を求め、その分散比をF検定で有意性を確認する(対立仮説:残差に埋もれないほど要因間のズレは大きい)。
このF検定はおなじみ、「残差より大きい」ことを言うための片側検定(>)である。
多重比較
- すべての組み合わせにおいて対応あるサンプルのt検定のt値を求める。
- それを多重検定に合わせてp値を出す。
- スチューデント化した範囲の分布を用いてp値を出す(Tukey)
- t分布を用いてp値を求め、それをBonferroni,Holm,Benjamini & Hochbergなどで修正する
一元配置要因分散分析との違い
一元配置反復分散分析は一元配置要因分散分析に「サンプルごとの平均差の効果」を足したものである。この差は分散分析表では残差変動・残差分散の差となって現れる。一元配置反復測定分散分析の方がサンプル効果を組み入れた分、残差が減る。F値の分母となる残差が減れば、有意性が出やすくなるというわけだ。
変動要因 | 変動 | 自由度 | 分散 | F | p |
---|---|---|---|---|---|
時期 | 10900.49 | 2 | 5450.25 | 55.03 | 0.00% |
サンプル | 705092 | 49 | 14389.63 | ||
残差 | 9706.84 | 98 | 99.049 |
変動要因 | 変動 | 自由度 | 分散 | F | p |
---|---|---|---|---|---|
時期 | 10900.49 | 2 | 5450.25 | 1.12 | 32.88% |
残差 | 714798.84 | 147 | 4862.58 |