分散分析
分散分析という名前だが、この分析における「分散」は手段であって、主たる関心は平均差(変動)にある。その意味でt検定と関心は共通している。
古くからある分析で、実験系の研究、文系でも主に心理学分野で用いられてきた。新しい物好き(?)の社会学分野では回帰分析系の後塵を拝している印象は否めない。結果に至までのプロセスがやや煩雑なわりに、得られる結果は一般的なクロス表の結果に対する「検定」であり、それ以上の発見に乏しいので面白みは少ない(もちろん面白い・面白くないと重要・重要でないは別の事柄である)。
分散分析の種類
| 分析深度 | 要因間 | 要因数 | 等分散性 | その後の検定 |
|---|---|---|---|---|
| 要因分析 Factorial 被験者間計画 | 独立したデータ | 一元配置 One-way | Fisher-前提 | 多重比較(Tukey-Kramer) |
| Welch-前提とせず | 多重比較(Games-Howell) | |||
| 二元配置 Two-way | 前提 | 交互作用→単純主効果検定 主効果→多重比較 |
||
| 反復測定 Repeated-Measures 被験者内計画 | 対応あるデータ | 一元配置 One-way | - | 多重比較(Tukey-Kramer) |
| 二元配置 Two-way | 交互作用→単純主効果検定 主効果→多重比較 |
| 要因数 | 繰り返し | 対応 | その他 | Excel分析ツール |
|---|---|---|---|---|
| 一元配置 One-way | 繰り返しなし | 対応なし Factorial | 等分散性を前提-Fisher 前提せず-Welch | 分散分析:一元配置 Single Factor |
| 繰り返しあり | 対応あり Repeated-Measures | - | 分散分析:繰り返しのない二元配置 Two-Factor without Replication |
|
| 二元配置 Two-way | 繰り返しなし | - | 交互作用検出できず | |
| 繰り返しあり | 対応なし Factorial | 交互作用検出可能 | 分散分析:繰り返しのある二元配置 Two-Factor with Replication |
|
| 対応あり Repeated-Measures | - |
「繰り返しあり・なし」と「対応あり・なし」が別の概念とされて複雑になり、実際の使用にも混乱が見られる。Excelが「分散分析:繰り返しのない二元配置」(Two-Factor ANOVA Without Replication)なんて意味もない分類を作ったことに由来するのかなあ?
一元配置分散分析
一元配置要因分散分析用データの例
| 調査対象者 | 学部 | 時間 | |
|---|---|---|---|
| 中澤 | 社会学部 | 104 | |
| 石黒 | 理工学部 | 100 | |
| 飯田 | 社会学部 | 121 | |
| 安倍 | 文学部 | 100 | |
| 福田 | 経済学部 | 130 | |
| … | |||
独立した二標本のt検定のカテゴリー変数が3変数以上になったものである。この場合2変数を前提としたt検定は使えない。
一元配置反復測定分散分析用データの例
| 調査対象者 | 国語 | 数学 | 英語 |
|---|---|---|---|
| 吉澤 | 10 | 30 | 60 |
| 藤本 | 0 | 0 | 5 |
| 高橋 | 60 | 5 | 120 |
| 新垣 | 30 | 45 | 45 |
| 小川 | 25 | 55 | 130 |
| … | |||
こちらは対応ある二標本のt検定の拡張。
Excelの分析ツールでは「分散分析:繰り返しのない二元配置」を用いる。
二元配置分散分析
一つのカテゴリー変数のデータが3種以上に対応したものが分散分析であるが、さらにそのカテゴリー変数を複数にしたものが多次元配置分散分析である。t検定、一元配置分散分析まではカテゴリーごとの平均値の差が主たる関心であったが、多元(二元)配置分散分析においてはカテゴリー(因子)ごとの影響の有無が主たる関心となる(本質的に別な話というわけではない)。
カテゴリー横断的に等分散性を前提としており、Welch法に相当するものはない。元々別の集団の平均差を調べるというより、一つの集団を操作的に分割して各々の因子の影響を見ることに力点が置かれていると言える。
なお3次元4次元と変数を増やしていくことも可能(多次元配列)だが、もともとが素朴な分析のため、あまりモデルを複雑にすると結果も複雑になる。その場合は回帰分析などの多変量解析法を使った方が良いだろう。
「分散分析:繰り返しのない二元配置」データの例
| 学部 | 1年 | 2年 | 3年 | 4年 |
|---|---|---|---|---|
| 社会学部 | 115.75 | 122.50 | 106.25 | 96.50 |
| 理工学部 | 112.25 | 124.50 | 112.75 | 129.50 |
| 文学部 | 113.75 | 118.75 | 111.00 | 106.00 |
| 経済学部 | 121.50 | 103.25 | 113.75 | 90.00 |
社会学では元データをクロス集計したもの。当然情報量は大幅に減じているので、元データを使える人が好んで採用する分析ではない。というか単にデータが少ない二元配置要因分散分析というだけ。わざわざ独立させる必要はないはずだが、Excelが切り出してしまったので、なぜかそういう分類があるかのごとく。
計算は一元配置反復測定分散分析と同じ。
二元配置要因分散分析用データの例
| 調査対象者 | 学部 | 学年 | 時間 |
|---|---|---|---|
| 中澤 | 社会学部 | 4年 | 104 |
| 石黒 | 理工学部 | 3年 | 100 |
| 飯田 | 社会学部 | 2年 | 121 |
| 安倍 | 文学部 | 2年 | 100 |
| 福田 | 経済学部 | 1年 | 130 |
| … | |||
社会学分野でも無理なく入手可能なデータ。一つの量的データと複数のカテゴリーデータを組み合わせるので、(量的データが比較的入手しづらい)社会学には適している。
二元配置反復測定分散分析用データの例
| 科目 | 英語 | 英語 | 英語 | 数学 | 数学 | 数学 | 国語 | 国語 | 国語 |
|---|---|---|---|---|---|---|---|---|---|
| 学年 | 1年生 | 2年生 | 3年生 | 1年生 | 2年生 | 3年生 | 1年生 | 2年生 | 3年生 |
| 高橋 | 120 | 100 | 120 | 5 | 10 | 0 | 60 | 45 | 30 |
| 新垣 | 45 | 60 | 180 | 45 | 120 | 160 | 30 | 20 | 10 |
| 亀井 | 20 | 20 | 20 | 20 | 25 | 10 | 10 | 15 | 10 |
| 道重 | 70 | 60 | 120 | 50 | 30 | 0 | 30 | 40 | 40 |
| … | |||||||||
ここまで整ったデータを入手するのが結構大変。
計画に沿って実験を行い、データを採取できる分野向き。