Excelで学ぶ統計講座(初級)

クロス集計表独立性の検定

本章で用いる実習用ファイル

クロス集計独立性の検定

観測値(現住所*支持政党)
GHIJK
1ConserativeunaffiliatedDemocratic
2Cammell10165682
3Morn39322596
4Magnol36262587
5Angerem31253591
6Juic16332372
7Beyond18332172
8150165185500

計の部分 周辺度数と呼ぶ。

このクロス集計表で現住所と支持政党に関連があることを読み取って良いかどうかを検証したい。

いいたいこと:対立仮説

現住所と支持政党に関連がある

帰無仮説

現住所と支持政党には関連がない(相互に独立している)。関連があるように見えたとしても、それはサンプルの偏りから偶然に生じる誤差の範囲内である。

帰無仮説を棄却する根拠

完全に行(住所)と列(支持政党)が独立したクロス表と比べて、現実のクロス表(観測値)のセルごとの値はあまりにもズレが大きすぎる。こんなにズレが出るのは偶然ではあり得ない。何かしら必然的な理由(住所と支持政党に関連がある)があるのだ!

証明するべき事柄

相互に独立したクロス表の各セルの値と観測値との差の合計が偶然では起こりえないだけの大きなものであるということ

この差が生じる確率は偶然と見なせる確率(=有意水準)より小さい

  1. 行と列が独立した状態のクロス表を作成する
    期待値(現住所*支持政党)
    GHIJK
    19ConserativeunaffiliatedDemocratic
    20Cammell=$K2*H$8/$K$827.0630.3482
    21Morn28.831.6835.5296
    22Magnol26.128.7132.1987
    23Angerem27.330.0333.6791
    24Juic21.623.7626.6472
    25Beyond21.623.7626.6472
    26150165185500

    Cammell府在住者である82人が、現住所に関わらない各支持政党比率(= 「計」行 の比率:Conserative:150/500, 支持なし:165/500, Democratic:185/500)で配分された状態を計算する。これを期待値と呼ぶ。

    各セルの期待値 ← 列方向の周辺度数×行方向の周辺度数/合計の周辺度数

  2. 観測値と期待値の差(残差)を計算する

    観測値 - 期待値

    残差(現住所*支持政党)
    GHIJK
    28ConserativeunaffiliatedDemocratic
    29Cammell=H2 - H20-11.0625.660
    30Morn10.20.32-10.520
    31Magnol9.9-2.71-7.190
    32Angerem3.7-5.031.330
    33Juic-5.69.24-3.640
    34Beyond-3.69.24-5.640
    350000
  3. 残差を標準化する

    残差 / SQRT(期待値)

    クロス表各セルの期待値というのは各セルの規模を表している(サンプルサイズに依存する)。サンプルサイズが小さければ期待値も小さくなり、残差も小さくなる。この規模感を一定のものにするのが「標準化」である。

    標準化残差(現住所*支持政党)
    GHIJK
    37ConserativeunaffiliatedDemocratic
    38Cammell=H29/SQRT(H20)-2.134.660
    39Morn1.900.06-1.770
    40Magnol1.94-0.51-1.270
    41Angerem0.71-0.920.230
    42Juic-1.201.90-0.710
    43Beyond-0.771.90-1.090
    440000
  4. 標準化残差を2乗する

    標準化残差はセルごとに正負混ざる。表全体の観測値と期待値のズレの大きさを計算するために標準化残差を2乗する(分散のときに偏差を2乗したのと同じ意味)。

    標準化残差^2(現住所*支持政党)
    GHIJK
    46ConserativeunaffiliatedDemocratic
    47Cammell=H38^24.5221.700
    48Morn3.610.003.120
    49Magnol3.76-0.511.610
    50Angerem0.500.260.050
    51Juic1.453.590.500
    52Beyond0.603.591.190
    530000
  5. 各セルの標準化残差の平方和を計算する

    表全体の観測値と期待値のズレの大きさを数値化する。これが検定統計量χ2値。χ2が大きくなればなるほど、それが生じる確率は下がる。

    このχ2値はχ2分布という確率分布(大きさとそれが生じる確率とを対応させたもの)を取る。χ2分布は自由度によって形が変わる(t分布と同様)。

    GHIJK
    55χ2値自由度p値V
    56Peason=SUM(H47:J52)
  6. 自由度の計算をする

    検定統計量χ2値はサンプルサイズではなく、クロス表のセルの個数ベースで計算されている。というわけで(周辺度数を除く)セルの数は6*3個。しかし残差計算のときに各行・各列の合計値を用いているので、自由度はその分、差し引かなければならない。

    1234517
    1234518
    13
    3579111348

    周辺度数が既知のとき、青い部分が決まれば、残りのセルが確定する。つまり自由度は青い部分の個数、(行数-1)*(列数-1)。

    GHIJK
    55χ2値自由度p値V
    56Peason59.56=(COUNTA(G47:G52)-1)*(COUNTA(H47:J47)-1)
  7. p値を求める

    χ2値はχ2分布いう確率分布(大きさとその出現確率を対応させる)を取る。χ2分布は自由度によって形が変わる。

    自由度が10のχ2分布

    この検定は「期待値と観測値が異なっている」ことを示す両側検定である。ただし観測値 - 期待値を2乗しているので、棄却値はグラフの右側にしか出ない。したがって数式上ではz検定・t検定・F検定の片側検定と同等になる(なおこのクロス表では観測値 - 期待値の符号が確定しないので(セルによって異なる)、片側検定は存在しない)。

    GHIJK
    55χ2値自由度p値V
    56Peason59.5610=1-CHISQ.DIST(H56,I56,TRUE)
  8. 効果量CramerのV値

    χ2値はサンプルサイズによって変化する。その影響を排除し、クロス表の大きさ(自由度)の影響を補正したものが効果量 CramerのV値である。

    SQRT(χ2/(サンプルサイズ*(行数列数の少ない方-1)))

    GHIJK
    55χ2値自由度p値V
    56Peason59.56100.00=SQRT(H56/(K8*(MIN(COUNTA(G47#),COUNTA(H46:J46))-1)))
    CramerのV値
    効果量V効果の目安
    0.5
    0.3
    0.1
    0なし

自由度1のクロス表

クロス表の自由度が1の時、すなわち2*2のクロス表の時は別に考えることがある。

性自認×内閣支持のクロス表を例にする。

観測値(性自認*内閣支持)
MNOP
1YesNo
2male124120244
3female107149256
4231269500

自由度が1であるということは一つのセルで観測値 - 期待値の符号が決まれば、それですべてのセルの符号も確定する。つまりこのときには片側検定に意味が出る。符号は1/2の確率で定まるので、両側検定のp値を2で割った値となる。

MNOPQRS
55χ2値自由度p(≠)p(>)p(<)V
56Peason4.0910.04=P56/2=1-P56/20.09
Yates補正

χ2分布はこれまでの確率分布と同様連続変数(量的な値=比例・間隔尺度)を対象としている。しかしクロス表では観測値は整数しか取らない離散変数である。このためクロス表から求めたχ2値に対してχ2分布は近似値を示すに過ぎない。このため今まで求めてきたクロス表独立性検定のp値は漸近有意確率と呼ぶ。漸近有意確率はクロス表の自由度が十分に大きければ一定の信頼性があるが、自由度が1のときにはその歪みが大きいことが知られている。ということでそれを補正する手段としてYates補正(連続修正)がある。

標準化残差を計算するときに補正をかける。

(ABS(残差) - 0.5) / SQRT(期待値)

標準化残差(Yates補正)
RSTU
37YesNo
38male=(ABS(N29)-0.5)/SQRT(N20)0.940
39female0.990.920
40000

これを元にχ2検定を行う。

MNOPQRS
55χ2値自由度p(≠)p(>)p(<)V
56Peason4.0910.040.020.980.09
57Yates3.7410.050.030.97

Peasonでは有意だったが、Yatesでは帰無仮説は棄却できない。

残差分析

χ2分布を用いた独立性の検定はクロス集計全体で行項目と列項目の関係を読み取ることが出来るかどうかを検証するためのものである。個別セルに対する読み取り(Cammell府在住者はDemocratic等を支持する傾向があるなど)の有意性を検証したわけではない。そこでセルごとの傾向とその有意性を改めて検証する。この分析を残差分析と呼ぶ(分散分析と多重比較検定の関係に似ている)。

標準化残差(現住所*支持政党)
GHIJK
37ConserativeunaffiliatedDemocratic
38Cammell-2.94-2.134.660
39Morn1.900.06-1.770
40Magnol1.94-0.51-1.270
41Angerem0.71-0.920.230
42Juic-1.201.90-0.710
43Beyond-0.771.90-1.090
440000

標準化残差の符号からセルごとのズレの方向(Cammell在住者であることはConserative党の支持に対して負の効果を持つ)を読み取る。こうしたセルごとの解釈が統計的有意性を持つかどうかが問題となる。

この標準化残差は期待値に対する観測値のズレの大きさを標準化したものである。それに対して期待値自体の持つズレの大きさを残差分散と呼ぶ。残差分散は期待値の「裏」の計算をする。

観測値(現住所*支持政党)
GHIJK
1ConserativeunaffiliatedDemocratic
2Cammell10165682
3Morn39322596
4Magnol36262587
5Angerem31253591
6Juic16332372
7Beyond18332172
8150165185500
残差分散(現住所*支持政党)
GHIJ
57ConserativeunaffiliatedDemocratic
58Cammell=(1-$K2/$K$8)*(1-H$8/$K$8)0.560.53
59Morn0.570.540.51
60Magnol0.580.550.52
61Angerem0.570.550.52
62Juic0.600.570.54
63Beyond0.600.570.54

この残差分散の平方根を取ったものが今回の標準誤差となる。

標準誤差(現住所*支持政党)
GHIJ
66ConserativeunaffiliatedDemocratic
67Cammell=SQRT(H58)0.750.73
68Morn0.750.740.71
69Magnol0.760.740.72
70Angerem0.760.740.72
71Juic0.770.760.73
72Beyond0.770.760.73

標準化残差を標準誤差で調整するとz検定の検定統計量z値となる。このときのz値を調整済み標準化残差と呼ぶ。

調整済み標準化残差(現住所*支持政党)
GHIJ
74ConserativeunaffiliatedDemocratic
75Cammell=H38/H67-2.846.42
76Morn2.530.08-2.47
77Magnol2.53-0.68-1.76
78Angerem0.94-1.240.32
79Juic-1.562.50-0.96
80Beyond-1.002.50-1.49

この調整済み標準化残差(z値)は標準正規分布を取るので、そこからp値を求める。

p値(現住所*支持政党)
GHIJ
82ConserativeunaffiliatedDemocratic
83Cammell=(1-NORM.S.DIST(ABS(H75),TRUE))*20.45%0.00%
84Morn1.15%93.84%1.34%
85Magnol1.08%49.66%7.90%
86Angerem34.94%21.50%74.95%
87Juic11.96%1.23%33.69%
88Beyond31.70%1.23%13.67%

p値が5%未満のセルが有意である。有意なセルに対して標準化残差の符号を読み取ることが出来る。

  • Camell在住者は保守党支持と支持なし層が少なく、民主党支持が多い
  • Morn在住者は保守党支持が多く、民主党支持が少ない
  • Magnol在住者は保守党支持が少ない
  • Juic在住者は支持なし層が多い
  • Beyond在住者は支持なし層が多い

結果

図表1:現住所ごとの支持政党比率
住所ごとの支持政党比率を示す横帯グラフ

居住地域によって支持政党は異なっている(χ2(10)=59.56, p<.05, V=0.24)。Cammell府在住者は民主党Democratic支持傾向が強く(z=6.42, p<.05)、Morn府(z=2.53, p<.05))・Magnol府(z=2.55, p<.05)在住者は保守党支持傾向が強い。