社会調査情報処理実習A 1組

2020年度 後期 火04 15:15-16:45 online

一元配置要因分散分析

本章で用いる実習用ファイル

多グループの平均差

スマートフォン利用増大に対してB大学は対策に苦慮している。今問題となっているのはその対策を学部ごとに違ったものにするのが良いのか、大学全体として一律の対策をするのが良いのか、である。そこで学生の中から500人を無作為抽出を行い、スマートフォン利用時間について調べた。このデータからスマートフォン利用時間に関する学部差を知りたい。

下記データより、B大学の学生のスマートフォン利用時間について、学部間の違いについてデータから得られる知見を述べよ。

CDEFG
1facultytime因子偏差平方残差偏差平方全体偏差平方
2science193
3law166
4science293
5social215
μ国B大学スマートフォン利用時間調査データ
変数
faculty(名義尺度)
C2:C501
time(比例尺度)
D2:D501
学部別利用時間平均値
sciencelawsocialliteratureagricultureeconomy
205.32169.44180.85171.36194.70178.36

この結果より、学部と利用時間との間にどのような関係を読み取ることが出来るだろうか?

学部によって随分利用時間にばらつきがあるようにも見えるが、これも偶然で済ませられる誤差の範囲?それとも必然?

Fisherの分散分析

独立した2グループ間での平均差の検定では2グループの平均差を検証したが、今度は3つ以上のグループでの平均差を検証したい。

基本的にやりたいことはt検定と同じだが、3グループ以上になると平均差の計算が出来ない。

分散分析の概略図1

そこで全体の平均とグループごとの平均との差を考える。この平均差がサンプルのばらつき(誤差)より十分に大きければ、グループごとの平均差に意味がある、ということになる。

平均値と個々のデータとの差は分散によってその大きさを測ることが出来る。ということで分散の大きさによって平均差の有意性を検証しようとするのがこの分散分析である。

一般的な分散(全体分散)を二つの分散に分解する。一つはStudentのt検定で用いられた共通分散=グループ内部での分散(残差分散)、もうひとつはグループ間の分散(因子分散)である。

分散分析の概略図2
因子分散(グループ間)
全体の平均と各グループの平均とのばらつき
残差分散(グループ内)
各グループの共通分散
  • Aの平均値からのA内の個々のデータ
  • Bの平均値からのB内の個々のデータ
  • Cの平均値からのC内の個々のデータ
各々のばらつき
全体分散
全体の平均と個々のデータとのばらつき

グループ間の分散が大きいというのは、グループごとの平均値が相互に離れているということである。ということでグループ間の分散を計算する。

  1. グループ間偏差平方を計算する。

    個々のデータについて、自分が所属する学部の平均全体の平均との偏差平方を求める。

    CE
    1facultyグループ間(因子)偏差平方
    2science=(XLOOKUP(faculty,I2#,L2:L7)-L8)^2
    3law
    4science
    5social
    IJJLM
    1Ndfmeanu2
    2science150149205.323076.57
    3law8079169.441222.63
    4social6059180.855744.67
    5literature8079171.364844.44
    6agriculture5049194.703726.95
    7economy8079178.36560.97
    8全体500499185.833223.81
  2. グループ内偏差平方を計算する。

    個々のデータについて、自分の値と自分が所属する学部の平均との偏差平方を求める。

    CDF
    1facultytimeグループ内(残差)偏差平方
    2science193=(time-XLOOKUP(faculty,I2#,L2:L7))^2
    3law166
    4science293
    5social215
    IJJLM
    1Ndfmeanu2
    2science150149205.323076.57
    3law8079169.441222.63
    4social6059180.855744.67
    5literature8079171.364844.44
    6agriculture5049194.703726.95
    7economy8079178.36560.97
    8全体500499185.833223.81
  3. 全体偏差平方を計算する。

    個々のデータについて、自分の値と全体の平均との偏差平方を求める。

    DG
    1time全体偏差平方
    2193=(time-AVERAGE(time))^2
    3166
    4293
    5215
  4. 各々の偏差平方和(変動)を求める。
    IJ
    11因子偏差平方和
    12グループ間=SUM(E2#)
    13グループ内=SUM(F2#)
    14全体=SUM(G2#)
  5. 各々の自由度を求める。
    IJK
    11因子偏差平方和自由度
    12グループ間105103.77=COUNTA(I2#)-1
    13グループ内1503579.45=COUNT(time)-COUNT(L2:L7)
    14全体1608683.22=COUNT(time)-1
  6. 各々の分散を求める。
    IJKL
    11因子偏差平方和自由度分散
    12グループ間105103.775=J12:J14/K12:K14
    13グループ内1503579.45494
    14全体1608683.22499
  7. グループ間分散(因子分散)とグループ内分散(残差分散)の比(F値)を求める。
    ILK
    11因子分散F
    12グループ間21020.75=L12/L13
    13グループ内3043.68
    14全体3223.81

    グループ間分散が大きくなればなるほどF値は大きくなり、グループの違いによる平均差が偶然では生じにくくなる。逆にグループ間分散が小さくなればF値は0に近づき、グループの違いによる平均差は偶然による誤差に飲み込まれる。この場合平均差に対するグループの違いの意味は小さくなる。

  8. グループ間分散がグループ内分散より大きい値を取る確率p値を求める。
    IKMN
    11因子自由度FP(グループ間>グループ内)
    12グループ間56.91=1-F.DIST(M12,K12,K13,TRUE)
    13グループ内494
    14全体499

    グループ間の分散(因子分散)が誤差由来のグループ内部での分散(残差分散)に比べて十分に大きければ、グループ同士の平均値は離れていると言える。このグループ間の分散(因子分散)とグループ内部での分散(残差分散)との比をF検定で検証する。

    • 帰無仮説-「因子」が違うことは値の違いに無関係である(グループ間で平均に差があるのは偶然だ)
    • 対立仮説-因子によってこそ変動(平均からのズレ)は左右されているのであって、残差など文字通りのこりカスや!
    • 因子による分散>>(圧倒的な、偶然とかケチの付けようのない差)>>残差による分散

    F値が大きくなれば有意と一方向の検定なので片側検定である。

  9. 効果量η2を求める。
    IJO
    11因子偏差平方和η2
    12グループ間105103.77=J12/J14
    13グループ内1503579.45
    14全体1608683.22
    効果量η2効果の目安
    0.14
    0.06
    0.01
    0なし
分散分析(ANOVA)
要因偏差平方和自由度分散Fp値(因子>残差)η2
因子(因子間)105103.77521020.756.910.00%0.07
残差(因子内)1503579.454943043.68
合計1608683.224993223.81

t検定との比較

2グループで分散分析を行うとStudentのt検定と同じ結果が得られる。

gender(maleとfemale)をグループ化変数として分散分析とStudetのt検定を行った
分散分析
IJKLMNO
7要因偏差平方和自由度分散Fp値(因子>残差)η2
8因子(因子間)56914.73156914.7318.270.00%0.04
9残差(因子内)1551768.494983116.00
10合計1608683.224993223.81
Studentのt検定
GHI
13有意水準5%
14平均差-21.34
15共通分散3116.00
16標準誤差4.99
17t値-4.27=H17^2
18自由度498
19p値(≠)0.00
20p値(>)1.00
21p値(<)0.00
22信頼上限-11.53
23信頼下限-31.16
24効果量d-0.38
25効果量r0.19

t検定におけるt値を2乗したものがF値となる。逆にF値からはt値の符号は出てこない。つまりt検定における片側検定に相当することは出来ない。したがって2グループのときには分散分析は用いない(機能が少ない)。

この分析方法をFisherの分散分析と呼ぶ。

なおこの分析は各グループが等分散であることを前提とした分析であるため、グループ間の分散の違いに対しては脆弱である(Studentのt検定相当)。

Welchの修正

Fisherの分散分析に対して、各グループが非等分散であることに関して頑健性をもたせたものがWelchの修正分散分析(「平均値同等性の耐久検定 Robust Tests of Equality of Means」)である(t検定におけるStudentとWelch修正の関係と同じ)。実際の分析にはこのWelch修正を用いるのが良い。

計算の中身は理解不能。

  • 検定統計量F ← SUM(グループ別サンプルサイズ/グループ別分散*(グループ別平均-SUM(グループ別サンプルサイズ/グループ別分散*グループ別平均)/SUM(グループ別サンプルサイズ/グループ別分散))^2)/(因子自由度*(1+2*(因子数-2)/(因子数^2-1)*SUM((1-グループ別サンプルサイズ/グループ別分散/SUM(グループ別サンプルサイズ/グループ別分散))^2/グループ別自由度)))
  • 因子自由度 ← グループの数 - 1
  • Welchの自由度 ← (因子数^2-1)/(3*SUM((1-グループ別サンプルサイズ/グループ別分散/SUM(グループ別サンプルサイズ/グループ別分散))^2/グループ別自由度))
  • p値 ← 1 - F.DIST(F, 因子自由度, Welchの自由度, TRUE)
一元配置要因分散分析(Welch)
FGHIJK
11F因子数因子自由度自由度p値(因子>残差)
12Welch8.4065189.74=1-F.DIST(G12, I12, J12,TRUE)

Excelでこの計算をするのは辛いので、実際の運用にはRを用いるとよい。

主張

分散分析の結果から得られた知見をまとめよ。

スマートフォン利用に対する対策は学部ごとの特性を生かしたものにするのが妥当である。調査よりスマートフォンの利用時間は学部により差がある(F(5,189.74)=8.40, p<.05, η2=0.07)。学部ごとのスマートフォンの平均利用時間は図表1の通りである。これほど学部ごとに利用時間に差がある状況で学部横断的に一律な対策を採るのは困難であると考えられる。

図表1:学部別利用時間平均値
sciencelawsocialliteratureagricultureeconomy
205.32169.44180.85171.36194.70178.36