6. 11/20講義分

表計算ソフト3 データ分析

相関係数

 二つの変数x、yがあるときに、xの変化に伴って、yも変化するような関係を相関関係という。xが増えるとyも増えるような関係を正の相関関係、xが増えるとyは減るような関係を負の相関関係という。どちらの傾向も見られないような場合は無相関という。
 相関関係と因果関係とは別。一般的にデータに基づいて分析されるのは相関関係である。
 疑似相関に注意。(アメの好きな女性は背が低い)

前回、散布図によって視覚的に二つの変数間の関係を把握したが、それを数値的に判断するには、相関係数と呼ばれる指標を用いる。
相関係数は、通常rを用いて表され、

-1≦r≦1
となる。正の相関があるときには0<r、負の相関があるときにはr<0である。
 
  • 相関係数の算出

  • CORREL関数を用いる。
    「分析ツール」→「回帰分析」でも計算可能。
     
  • 相関係数の見方(目安)
  • r<0.4→ほとんど相関なし。
    0.8<r→強い相関。
    練習
    前回の前期成績と後期成績に関係があるかどうか、相関係数を用いて検証せよ。
     

    平均に関する検定

    標本1と標本2の標本数をn1,n2、平均をx1,x2、分散をs1,s2とすると、
    x1とx2がそれぞれ母集団の平均X、分散Sからある程度の確率α以上で出現するのであれば、標本1と標本2が同じ母集団からたまたま生じたのだと言える(帰無仮説を採択、統計的な有意差は言えない)。逆に相当の確率(α)でもって出現しないのであれば、同じ母集団から生じたとは考えられず(帰無仮説を棄却)、x1とx2には有意に差があるといえる。

    二つの標本の平均の間の差を考える。

    -1.96*SQRT(S/N)<X-X(=0)<1.96*SQRT(S/N)
    この範囲内にx1-x2があれば、同じ母集団から二つの平均が生じたと言うことが出来、帰無仮説は採択される。
    今、SQRT(S/N)の値は不明なので、標本よりSQRT(s1/n1+s2/n2)で代用する。
    -1.96*SQRT(s1/n1+s2/n2)<x1-x2<1.96*SQRT(s1/n1+s2/n2)
    であれば、帰無仮説は採択される。上の式を整理して逆から言えば、
    t=|(x1-x2)/SQRT(s1/n1+s2/n2))|>1.96
    であれば、帰無仮説は棄却され、母平均には有意差があると判断できる。
    このときの1.96の値を「棄却値」と呼ぶ。
     
    より厳密には、確率αにおける棄却値は

    TINV(α,自由度)≒1.96(α=0.05)

    で表される。

    自由度とは、(行-1)*(列-1)で表される値である。
    この表の場合、おのおのが一行の表と考えられるので、自由度は(n1-1)+(n2-1)となる。
    練習
    1. 「t」と「棄却値」の式を用いて、前期成績(29.65)と後期成績(30.875)に関して、平均点が有意に上昇したと言えるかどうかを95%水準で検定せよ。(分散 36.23, 42.21; 標本数40)

    2. 今、別のテスト(標本数40)で前期成績の平均が19.5点、分散が35、後期成績が平均23.5、分散37であった。このとき平均点が有意に上昇したと言えるかどうか、同じく95%水準で検定せよ。99%水準ではどうか。

    クロス集計に関する検定

    たとえばparty.xlsは1984年のアメリカ総合社会調査で得られた出身民族と支持正答に関する1470人のデータの一部である。このデータで問題にしうるのは次の命題である。

    P: 出身民族は、支持政党に関係がある。

       
    1. この命題を検討するにあたり、まず、おのおのの度数を割合(%)で書きなおしてみよう。

    2. この作業によって、出身民族によって支持政党の動向が異なっていることは確認できた。ところで、先のデータはアメリカの成人全体を母集団としてそれを代表する形で得られたデータに過ぎない。1500人という数はアメリカ人の人口からすればごく一部である。となれば、先に見出した動向というのは、アメリカ合衆国全体に関して、いいうることなのであろうか、という疑問が出てくる。ただ単に、偶然、上で見られた動向が見出されたに過ぎないのではないか。差があると見えたのは、単にデータ収集の際の偏りに過ぎないのではないか。
      つまりアメリカ合衆国全体の動向(母集団)においては、出身民族と支持政党の間には実はまったく関連がなかったのに、たまたま集められた上のデータ(標本データ)に先の関連が見出されてしまう、ということがいったいどのくらいの確率で起こり得るのか、というのが問題なのである。この確率がある程度高ければ、「両者の間には関連がある」といいきってしまうのはヤバイ、ということになるだろう。逆にその確率が十分低ければ、両者には関連があるのだといいうるのだ。
      ここでは、まず、両者に関連はない、つまり関連があると見えたのは、偶然だという仮説(帰無仮説という)を最初に立てることにしよう。この仮設が成立する確率を計算してみて、その確率が十分に低ければ、先に言ったように出身民族と支持政党の関連があるといってもよい、ということになる。この十分に低い、程度を仮に5%であるとする。
       

    3. では、両者に関連がないとした場合、おのおのの出身民族と支持政党の関連がどうなるか、各セルの期待値を計算して見よう。

    4.  
    5. こうして各セルにおいて期待度数が計算される。その期待度数と実際の計測値の食い違い(期待度数−計測値)の度合い(今のを二乗して期待度数で割る)の総和を、χ二乗統計量と呼ぶ。

    6.  
    7. それとは別個に、母集団からは論理的に有限だがさまざまな標本データを取ることが可能だろう。このありうべき各標本データに関して仮にそれぞれ、χ二乗統計量を計算したとしたら、その値の分布はある定まった形をとることが知られている。その分布において、十分少ない可能性(たとえば5%)においてしか取り得ない値CHIINV(0.05,自由度)の範囲もわかる。

    8.  
    9. そこで実際の計測値から得られたχ二乗値が、ありうべき可能性(95%)の中にある場合、出身階層と支持政党の関連は、偶然であった可能性もあり得る、ということになる。逆にいえば、計測値のχ二乗値が、偶然においてはありえない値を取るとき、出身階層と支持正当との間には、何らかの関係があったのだ、といい得るのだ。

    10. CHIINV(0.05,自由度)<観測値に基づくχ二乗値
       

    11. ならば、観測値に基づくχ二乗値は偶然ではありえず、すなわち出身民族と支持政党との関連が無い可能性が一定程度(少なくとも5%)ある、という仮説が棄却され、両者の関連があるということが高い確率(95%)で支持される。
    練習
    Sheet「練習」を用いて、データ全体において命題Pが入れるかどうか、検証せよ。


    戻る