情報処理II 11/12 EXCEL 5

7 11/13講義分

表計算ソフト5 クロス集計・χ二乗検定

クロス集計

「データ」→「ピボットテーブル」を用いる。
たとえば、男女別、欠席回数別に平均点をクロス集計してみよう。
女性においては欠席回数が少ない人の方がいい点をとっているなあ、ぐらいは確認できる、かも知れない。(適当にでっち上げた数字なのであまり深い意味はない)

検定

もう少しまじめな統計を見てみよう。たとえばこのデータは1984念のアメリカ総合社会調査で得られた出身民族と支持正当に関する1470人のデータである。このデータで問題にしうるのは次の命題である。

P: 出身民族は、支持政党に関係がある。

  1. この命題を検討するにあたり、まず、おのおのの度数を割合(%)で書きなおしてみよう。

    この作業によって、出身民族によって支持政党の動向が異なっていることは確認できた。ところで、先のデータはアメリカの成人全体を母集団としてそれを代表する形で得られたデータに過ぎない。1500人という数はアメリカ人の人口からすればごく一部である。となれば、先に見出した動向というのは、アメリカ合衆国全体に関して、いいうることなのであろうか、という疑問が出てくる。ただ単に、偶然、上で見られた動向が見出されたに過ぎないのではないか。差があると見えたのは、単にデータ収集の際の偏りに過ぎないのではないか。
    つまりアメリカ合衆国全体の動向(母集団)においては、出身民族と支持政党の間には実はまったく関連がなかったのに、たまたま集められた上のデータ(標本データ)に先の関連が見出されてしまう、ということがいったいどのくらいの確率で起こり得るのか、というのが問題なのである。この確率がある程度高ければ、「両者の間には関連がある」といいきってしまうのはヤバイ、ということになるだろう。逆にその確率が十分低ければ、両者には関連があるのだといいうるのだ。
    ここでは、まず、両者に関連はない、つまり関連があると見えたのは、偶然だという仮説(帰無仮説という)を最初に立てることにしよう。この仮設が成立する確率を計算してみて、その確率が十分に低ければ、先に言ったように出身民族と支持政党の関連があるといってもよい、ということになる。この十分に低い、程度を仮に1%であるとする。

  2. では、両者に関連がないとした場合、おのおのの出身民族と支持政党の関連がどうなるか、その期待値を計算して見よう。

  3. こうして各セルにおいて期待度数が計算される。その期待度数と実際の計測値の食い違い(期待度数−計測値)の度合い(今のを二乗して期待度数で割る)の総和を、χ二乗統計量と呼ぶ。

  4. それとは別個に、母集団からは論理的に有限だがさまざまな標本データを取ることが可能だろう。このありうべき各標本データに関して仮にそれぞれ、χ二乗統計量を計算したとしたら、その値の分布はある定まった形をとることが知られている。その分布において、十分少ない可能性(たとえば1%)においてしか取り得ない値CHIINV(0.01,自由度)の範囲もわかる。

  5. そこで実際の計測値から得られたχ二乗値が、ありうべき可能性(99%)の中にある場合、出身階層と支持政党の関連は、偶然であった可能性もあり得る、ということになる。逆にいえば、計測値のχ二乗値が、偶然においてはありえない値を取るとき、出身階層と支持正当との間には、何らかの関係があったのだ、といい得るのだ。

    CHIINV(0.01,自由度)<観測値に基づくχ二乗値

  6. ならば、観測値に基づくχ二乗値は偶然ではありえず、すなわち出身民族と支持政党との関連が無い可能性が一定程度(少なくとも1%)ある、という仮説が棄却され、両者の関連があるということが高い確率(99%)で支持される。

    自由度とは、
    各セルの(行-1)*(列-1)
    で表される値である。

戻る