多重比較検定:はたの授業サイト（龍谷大学社会学部）

多重比較検定

本章で用いる実習用ファイル

excelMultiple-comparison

	C	D	E	F	G
1	faculty	time	因子偏差平方	残差偏差平方	全体偏差平方
2	science	193	379.70	151.78	51.35
3	law	166	268.85	11.82	393.39
4	science	293	379.70	7687.78	11484.55
5	social	215	24.84	1166.22	850.66
μ国B大学スマートフォン利用時間調査データ

science	law	social	literature	agriculture	economy
205.32	169.44	18085	171.36	194.70	178.36

分散分析は複数グループの集合の中で、カテゴリにより（グループが「原因」となって）、平均が異なる、ということを示す(ex.血液型によって判定結果が変わる!)。マクロな視点。

その際(あるいはそれとは別に)複数カテゴリの集合の中で具体的にどの2グループの平均差が有意なのかを調べたくなる(A型とB型には差があるのだろうか?それ以外は?)。ミクロな視点。それには分散分析は役に立たず、さりとて通常の平均の差の検定は使えない(多重比較)。

2変数の比較を組み合せるのは「検定の繰り返し」となり、有意性が不当に出やすくなる。

多重検定

※分かりやすくするために有意水準α = 0.1とする。

集合A,B,Cの中から（対立）仮説「B ≠ C」を検定したい。

このとき「A ≠ B」「B ≠ C」「C ≠ A」、少なくともどれか一つを誤って有意判定する確率は1 - (1 - 0.1)^3→0.271である。つまり危険度0.271となり、有意水準0.1を上回ってしまう。

「いや、待て。おかしいやん。オレは「B ≠ C」だけしか言ってないがな。他の組合せの話なんてしてへんやん。なんでB,Cの話しかしてないのに他の組合せの確率関係あるねん」

「では君はA,B,C三つある中でなんでそのB,Cの組合せだけに着目したのかね？君はこっそりデータを見て、B ≠ Cに有意差が出ることを確認した上で、「B ≠ C」という仮説を立てたのであって、もしB ≠ Cには有意差が出ず、A ≠ Cに有意差が出たら今度はそれを仮説に立てて、君は有意性を主張するんじゃないのか？君は三つの組み合わせの中でどれか一つでも有意であればそれを持ち出して、有意性を主張することが出来る立場にいるのだから、逆にその三つの仮説の持つリスクをすべて背負う義務もあるのだよ」(超早口で)

「ひぃ！」

本当に仮説を立てる前にこっそりデータを確認したかどうかはこの際関係がない。当該組合せだけに着目する根拠をデータの外部で説明できれば2変数間の平均の差の検定で構わない。でも例えば「経済学部・法学部・理工学部・文学部・社会学部」があるなかで文学部と理工学部だけに着目する理由を説明するのは結構大変。というので、セットの中から二組を比較する場合、多重比較となるケースはかなりある。

というわけで多重比較なら結果を補正しなければならない。そのために様々な手法が開発されている。代表的な方法をかいつまんで紹介する。

p値を求めた後で修正する方法

検定を重ねれば、それだけ危険度が上がってしまうので、検定回数に応じてp値を修正する。

Bonferroniの調整

検定統計量に何をおくかは定めていない
「p値 * 検定回数」とする（=有意水準/検定回数）
有意水準0.1の検定を3回繰り返す → (1-0.1/3)^3 = 0.9032963 ほぼ0.9となる。
検定の回数が増えると有意性が出にくい(検出力が低い)

Holm法、Benjamini & Hochberg(BH)法

Bonferroni調整があまりに検出力が低いのを修正したもの。

p値を求める際の分布を変更する方法

p値を求める際、群数によって有意性が出にくくなるような分布を用いる。

Tukey-Kramer法

Studentのt検定を拡張して検定統計量を求める(分散分析の考え方を援用)
t分布の代わりにグループ数に影響される分布(スチューデント化した範囲(studentized range)の分布)を用いる
等分散性を前提

Games-Howell法

Welchのt検定を用いて検定統計量を求める
t分布の代わりにスチューデント化した範囲の分布を用いる
不等分散に対して頑健

なお上記検定はいずれも本質的には分散分析とは別の独立した検定である(検出力を上げるために、分散分析の結果を利用することもある)。分散分析の結果にかかわらず、この検定を行うことは可能である。ただ多重比較検定で有意であったとしても、検証群中のある二群の平均の差が有意であったということを論証するに過ぎず、その群を分割したカテゴリーによって（カテゴリーが「原因」で）平均が異なるという主張は分散分析から得られるものである。その意味で多重検定と分散分析はミクロとマクロで相互補完的な関係にあると言える。

分散分析: あるグループの集合のなかで、グループ間に平均差が生じるのはそのグループの分け方が原因である。
多重比較検定: あるグループの集合のなかで、特定の組み合わせにおいて平均差が異なっている。

t検定 + Bonferroni調整

通常のt検定を用いる。

t検定のp値(両側)に検定回数を掛けたものをp値とする。ただしp値が1を超える時には1とする。

p ← (1 - pt(t,自由度))*2*検定回数

まずは学部すべての組み合わせで独立した2グループ間での平均差の検定を行う。本来Welch法を用いるべきだが、Excelで何回もWelch検定をするのは面倒なので(!)、今回はBonferroni法理解のためと割り切って簡便にStudent法を用いる。

共通分散 ← 各組み合わせグループの共通分散
標準誤差 ← SQRT(共通分散 / 集団1のサンプルサイズ + 共通分散 / 集団2のサンプルサイズ)
検定統計量t ← ABS(集団1の平均 - 集団2の平均)/標準誤差
自由度 ← 各組み合わせグループの自由度の総和

	I	J	K	L	M
1		N	df	mean	u2
2	=UNIQUE(faculty)	150	149	205.32	3076.57
3	law	80	79	169.44	1222.63
4	social	60	59	180.85	5744.67
5	literature	80	79	171.36	4844.44
6	agriculture	50	49	194.70	3726.95
7	economy	80	79	178.36	560.97
8	全体	500	499	185.83	3223.81

グループ全部の組み合わせ分、検定を行わなければならない。グループ数(COUNTA(I$2#))から2グループを選び出す組み合わせを求める。

O

1 検定回数

2 =COMBIN(COUNTA(I$2#),2)
全15個の組み合わせについてt検定を行う。

t検定で求めたp値(調整前)に検定回数を掛ける。ただしその値が1を超えたときには1にする

	I	J	K	L	M	N	O	P	Q	R	S

17	faculty1	N1	faculty2	N2	平均差	分散	自由度	標準誤差	t	調整前p	調整後p
18	agriculture	50	economy	80	16.34	1772.95	128	=SQRT(N18/J18+N18/L18)	2.15	3.33%	=MIN(1,R18*検定回数)
19	agriculture	50	law	80	25.26	2181.31	128	8.42	3.00	0.32%	4.86%
20	agriculture	50	literature	80	23.34	4416.65	128	11.98	1.95	5.36%	80.42%
21	agriculture	50	sicence	150	-10.62	3237.52	198	9.29	-1.14	25.44%	100.00%
22	agriculture	50	social	60	13.85	4829.22	108	13.31	1.04	30.03%	100.00%
23	economy	80	law	80	8.93	891.80	158	4.72	1.89	6.06%	90.85%
24	economy	80	literature	80	7.00	2702.70	158	8.22	0.85	39.57%	100.00%
25	economy	80	sicence	150	-26.96	2204.93	228	6.50	-4.15	0.00%	0.07%
26	economy	80	social	60	-2.49	2777.19	138	9.00	-0.28	78.27%	100.00%
27	law	80	literature	80	-1.93	3033.53	158	8.71	-0.22	82.53%	100.00%
28	law	80	sicence	150	-35.88	2434.19	228	6.83	-5.25	0.00%	0.00%
29	law	80	social	60	-11.41	3155.97	138	9.59	-1.19	23.63%	100.00%
30	literature	80	sicence	150	-33.96	3689.12	228	8.41	-4.04	0.01%	0.11%
31	literature	80	social	60	-9.49	5229.32	138	12.35	-0.77	44.37%	100.00%
32	science	150	social	60	24.47	3833.39	208	9.46	2.59	1.04%	15.53%

Bonferroni法はそれ由来では第一種過誤を犯しづらい方法である。それだけに有意性の検出力が低く、使いづらい。

※ただし今回は前提となる検定でStudentのt検定を用いているため、それ由来の第一種過誤が出るリスクは十分にある。

t検定拡張 + Bonferroni調整

通常の2グループ間のt検定を修正し、全グループを対象として共通分散と自由度を計算する。

SPSSの「その後の多重比較」で「Bonferroni」を選択した時にはこの方法が用いられているようだ。

共通分散 ← 全グループの「残差分散」
標準誤差 ← SQRT(共通分散 / 集団1のサンプルサイズ + 共通分散 / 集団2のサンプルサイズ)
検定統計量t ← abs(集団1の平均 - 集団2の平均)/標準誤差
自由度 ← 全グループの自由度の総和

Studetのt検定を用いるよりは非等分散に対して頑健であるようだ(ただし本来は等分散を前提とした検定である)。その一方で全体としての検出力は上がる。

分散分析
	I	J	K	L	M	N	O

7	要因	偏差平方和	自由度	分散	F	P値(因子>残差)	η2
8	因子（因子間）	56914.73	1	56914.73	18.27	0.00%	0.04
9	残差（因子内）	1551768.49	498	3116.00
10	合計	1608683.22	499	3223.81

	I	J	K	L	M	N	O	P	Q

17	faculty1	N1	faculty2	N2	平均差	標準誤差	t	調整前p	調整後p
18	agriculture	50	economy	80	16.34	=SQRT($L$13/J18+$L$13/L18)	1.64	10.11%	100.00%
19	agriculture	50	law	80	25.26	9.95	2.54	1.14%	17.09%
20	agriculture	50	literature	80	23.34	9.95	2.35	1.93%	29.02%
21	agriculture	50	science	150	-10.62	9.01	-1.18	23.90%	100.00%
22	agriculture	50	social	60	13.85	10.56	1.31	19.05%	100.00%
23	economy	80	law	80	8.93	8.72	1.02	30.67%	100.00%
24	economy	80	literature	80	7.00	8.72	0.80	42.27%	100.00%
25	economy	80	science	150	-26.96	7.64	-3.53	0.05%	0.68%
26	economy	80	social	60	-2.49	9.42	-0.26	79.19%	100.00%
27	law	80	literature	80	-1.93	8.72	-0.22	82.54%	100.00%
28	law	80	science	150	-35.88	7.64	-4.70	0.00%	0.01%
29	law	80	social	60	-11.41	9.42	-1.21	22.64%	100.00%
30	literature	80	science	150	-33.96	7.64	-4.45	0.00%	0.02%
31	literature	80	social	60	-9.49	9.42	-1.01	31.45%	100.00%
32	science	150	social	60	24.47	8.43	2.90	0.39%	5.78%

Tukey-Kramer

先ほどの拡張t検定と同じやり方で検定統計量を求める。

共通分散 ← 全グループの「残差分散」
標準誤差 ← SQRT(共通分散 / 集団1のサンプルサイズ + 共通分散 / 集団2のサンプルサイズ)
検定統計量t ← abs(集団1の平均 - 集団2の平均)/標準誤差

このtに2の平方根(SQRT(2))を掛けたものはスチューデント化した範囲の分布（Q 分布）という確率分布に従う。

Q分布はグループの数と自由度(残差自由度）によって決まる(グループ数が増えれば同じ検定統計量のp値が大きくなる)。

自由度 ← 全グループの自由度の総和
p ← 1 - Q.DIST(t*SQRT(2), グループの数, 自由度, TRUE)
グループ数が2の時、1 - Q.DIST(t*SQRT(2), 2, df, TRUE) == (1 - T.DIST(t, df, TRUE))*2

Bonferroni法よりも検出力が上がる。

では例によって実際にExcelでやってみよう、としても出来ない。Q.DIST()なんて関数がExcelには用意されていないからである(!)。

この検定も等分散を前提とした検定である。

Games-Howell

Welchのt検定の検定統計量とTukey法の「スチューデント化した範囲の分布」を用いる。

標準誤差 ← SQRT(集団1の分散 / 集団1のサンプルサイズ + 集団2の分散 / 集団2のサンプルサイズ)
検定統計量t ← ABS(集団1の平均 - 集団2の平均)/標準誤差
自由度 ← 集団1，2によるWelchの等価自由度
p ← 1 - Q.DIST(t*SQRT(2), グループの数, 自由度, TRUE)

等分散を前提としない検定である。Welchのt検定+Bonferroni法よりも検出力が高い。これが本命。が、こちらもQ.DIST()がExcelにない以上、Excelでは使えない。

といいうわけで多重比較検定を実用的に行う際にはRを用いるとよい(cf.Rを用いた分散分析と多重比較検定)

		O
1		検定回数
2		=COMBIN(COUNTA(I$2#),2)