Excelで学ぶ統計講座(初級)

分散分析

分散分析という名前だが、この分析における「分散」は手段であって、主たる関心は平均差(変動)にある。その意味でt検定と関心は共通している。

古くからある分析で、実験系の研究、文系でも主に心理学分野で用いられてきた。新しい物好き(?)の社会学分野では回帰分析系の後塵を拝している印象は否めない。結果に至までのプロセスがやや煩雑なわりに、得られる結果は一般的なクロス表の結果に対する「検定」であり、それ以上の発見に乏しいので面白みは少ない(もちろん面白い・面白くないと重要・重要でないは別の事柄である)。

分散分析の種類

分析深度要因間要因数等分散性その後の検定
要因分析
Factorial
被験者間計画
独立したデータ一元配置
One-way
Fisher-前提多重比較(Tukey-Kramer)
Welch-前提とせず多重比較(Games-Howell)
二元配置
Two-way
前提交互作用→単純主効果検定
主効果→多重比較
反復測定
Repeated-Measures
被験者内計画
対応あるデータ一元配置
One-way
-多重比較(Tukey-Kramer)
二元配置
Two-way
交互作用→単純主効果検定
主効果→多重比較
よく見かける分類
要因数繰り返し対応その他Excel分析ツール
一元配置
One-way
繰り返しなし対応なし
Factorial
等分散性を前提-Fisher
前提せず-Welch
分散分析:一元配置
Single Factor
繰り返しあり対応あり
Repeated-Measures
-分散分析:繰り返しのない二元配置
Two-Factor without Replication
二元配置
Two-way
繰り返しなし-交互作用検出できず
繰り返しあり対応なし
Factorial
交互作用検出可能分散分析:繰り返しのある二元配置
Two-Factor with Replication
対応あり
Repeated-Measures
-

「繰り返しあり・なし」と「対応あり・なし」が別の概念とされて複雑になり、実際の使用にも混乱が見られる。Excelが「分散分析:繰り返しのない二元配置」(Two-Factor ANOVA Without Replication)なんて意味もない分類を作ったことに由来するのかなあ?

一元配置分散分析

一元配置要因分散分析用データの例

一日あたりの自習時間
調査対象者学部時間
中澤社会学部104
石黒理工学部100
飯田社会学部121
安倍文学部100
福田経済学部130

独立した二標本のt検定のカテゴリー変数が3変数以上になったものである。この場合2変数を前提としたt検定は使えない。

一元配置反復測定分散分析用データの例

一日あたりの自習時間
調査対象者国語数学英語
吉澤103060
藤本005
高橋605120
新垣304545
小川2555130

こちらは対応ある二標本のt検定の拡張。

Excelの分析ツールでは「分散分析:繰り返しのない二元配置」を用いる。

二元配置分散分析

一つのカテゴリー変数のデータが3種以上に対応したものが分散分析であるが、さらにそのカテゴリー変数を複数にしたものが多次元配置分散分析である。t検定、一元配置分散分析まではカテゴリーごとの平均値の差が主たる関心であったが、多元(二元)配置分散分析においてはカテゴリー(因子)ごとの影響の有無が主たる関心となる(本質的に別な話というわけではない)。

カテゴリー横断的に等分散性を前提としており、Welch法に相当するものはない。元々別の集団の平均差を調べるというより、一つの集団を操作的に分割して各々の因子の影響を見ることに力点が置かれていると言える。

なお3次元4次元と変数を増やしていくことも可能(多次元配列)だが、もともとが素朴な分析のため、あまりモデルを複雑にすると結果も複雑になる。その場合は回帰分析などの多変量解析法を使った方が良いだろう。

「分散分析:繰り返しのない二元配置」データの例

一日あたりの自習時間
学部1年2年3年4年
社会学部115.75122.50106.2596.50
理工学部112.25124.50112.75129.50
文学部113.75118.75111.00106.00
経済学部121.50103.25113.7590.00

社会学では元データをクロス集計したもの。当然情報量は大幅に減じているので、元データを使える人が好んで採用する分析ではない。というか単にデータが少ない二元配置要因分散分析というだけ。わざわざ独立させる必要はないはずだが、Excelが切り出してしまったので、なぜかそういう分類があるかのごとく。

計算は一元配置反復測定分散分析と同じ。

二元配置要因分散分析用データの例

一日あたりの自習時間
調査対象者学部学年時間
中澤社会学部4年104
石黒理工学部3年100
飯田社会学部2年121
安倍文学部2年100
福田経済学部1年130

社会学分野でも無理なく入手可能なデータ。一つの量的データと複数のカテゴリーデータを組み合わせるので、(量的データが比較的入手しづらい)社会学には適している。

二元配置反復測定分散分析用データの例

一日あたりの平均自習時間
科目英語英語英語数学数学数学国語国語国語
学年1年生2年生3年生1年生2年生3年生1年生2年生3年生
高橋1201001205100604530
新垣456018045120160302010
亀井202020202510101510
道重706012050300304040

ここまで整ったデータを入手するのが結構大変。

計画に沿って実験を行い、データを採取できる分野向き。