社会調査情報処理実習A 2組

2017年度 後期 木04 15:15-16:45 瀬田2-119

検定

仮説立案
主張・仮説データから見出したい結果を仮説H1とするH1という結果がデータから得られる。それは意義深い
論証用の仮説の設定
帰無仮説主張を積極的に支持できないとして否定する内容の仮説(H0)その結果は偶然の産物だよね
対立仮説本当にいいたいこと、本来の主張(H1)偶然じゃない、必然なのだ!
統計的過誤
第一種過誤実際には真である帰無仮説を棄却してしまう無意味なものに対して意味があると言ってしまった
(無実の人を有罪に)
第二種過誤実際には偽である帰無仮説を採択してしまう本当は意味があったのに積極的に主張できなかった
(真犯人を無罪に)
帰無仮説の検証
検定統計量対立仮説H1の内容を数値化した統計量頑張って計算する
確率分布検定統計量の値(確率変数)とその生起確率とを結びつける分布統計ソフトにはそれを求めるための関数がある
p値偶然でその結果が生じる確率検定統計量を元に確率分布から求める
有意水準偶然でそうなってしまう確率が
これより小さければ偶然じゃないと見なす限界点
適切に設定する(一般的には5%ないし1%)
棄却値確率が有意水準である時に検定統計量(確率変数)が取る値確率分布から求める。
「有意性」の判定
有意水準<p値帰無仮説を棄却できない
H1とは言えない
なーんだ、偶然かも知れないじゃんorz
偶然かも知れないのでH1を積極的に意味づけられませんm(__)m
有意水準>=p値帰無仮説を棄却、対立仮説(H1)を採択
H1は有意である
やっぱり偶然なんかじゃないんだ!
何かしら必然性を持って生じたものだ
H1はデータに裏付けられたポジティブな意味を持っている
社会学的意味づけ
権力作用の発見H1を引き起こす必然性が社会的に存在する→社会的な「力」(=権力)の作用

用語

検定統計量対立仮説H1の内容を数値化した統計量例:t値(t検定)、分散比(F検定)などなど
p値(Probability)偶然でその結果が生じる確率検定統計量を用いて確率分布表より算出する(例:pt関数)
有意水準α偶然でそうなってしまう確率がこれより小さければ偶然じゃないと見なす限界点一般的には5%ないし1%
母数(parameter)母集団の分布を特徴付ける数母平均・母分散など
標本数k標本を集めるための抽出回数A組とB組から各々サンプルを集めた場合、標本数は2
標本の大きさn集められた標本の度数(観測数)
変動(偏差平方和)S個々の値と平均との差(偏差)を二乗したものの総和
分散V偏差平方の平均
偏差積和(xi-xの平均)×(yi-yの平均)の総和
共分散Cov(x,y)偏差積の平均
自由度df(degree of freedom)標本の大きさから拘束条件の数を引いた数例:標本の大きさ -1(平均値という縛り)-…
不偏分散 u2母分散σ2の推定値(個別値-平均値)^2の総和/自由度
標準誤差 SE標本の統計量のばらつきの大きさ例:SQRT(分散/標本の大きさ)(誤差伝播の法則より)
棄却値検定統計量がこの値を超えたら帰無仮説は棄却できる、有意水準と対応する確率分布表より算出する(例:qt関数)
片側検定比較対象との大小関係がどちらか一方の論証でOK の時仮説とは逆方向の結果には意味・意義・関心なし
両側検定特段の条件がないとき

確率分布

確率分布
正規分布十分な大きさ(n)の標本の無作為抽出を繰り返したときの標本平均値「(x1+x2+…+xn)/n」の分布
標準正規分布(norm)平均0、分散1に標準化した正規分布
χ2分布(chisq)標準正規分布においてn個の標本を取り出したときのその標本平方和「(x12+x22+…+xn2)」の分布
自由度はn-1
F分布(f)n1個とn2個からなる二つの標本の「χ2値/自由度(=分散)」の比の分布
自由度はn1-1とn2-1の二つ
t分布(t)二つの標本の間の分散(自由度は1)と標本内の分散(自由度はn1-1+n2-1)の比(F値)の平方根を取った値の分布
自由度はn1-1+n2-1
studentized range分布(tukey)複数の標本の中から二つの標本を抽出した時の平均差と標準誤差の比の分布
自由度は標本数(グループの数)と各標本の自由度の総和

Excelにおける確率分布関数

xxx.DIST(x...)
検定統計量がxの時の生起確率
  • x=検定統計量
  • 自由度など
xxx.INV(p...)
確率がpである時の確率変数の値
  • p=確率
  • 自由度など
確率分布とExcelでの関数名の対応
分布名xxx指定する自由度の数
標準正規分布NORM.S0
χ2分布CHISQ1
F分布F2
t分布T1
studentized range分布--

Rにおける確率分布関数

pxxx(x...)
Excelのxxx.dist関数に相当。検定統計量がxの時の生起確率
  • x=検定統計量
  • 自由度など
qxxx(p...)
Excelのxxx.inv関数に相当。確率がpである時の確率変数の値
  • p=確率
  • 自由度など
確率分布とRでの関数名の対応
分布名xxx指定する自由度の数
標準正規分布norm0
χ2分布chisq1
F分布f2
t分布t1
studentized range分布tukey2

確率分布と分析手法

分析手法
平均値(mean)平均値の区間推定正規分布、t分布平均値が取り得る値の上限と下限
一つの標本についての平均値と基準値の差の検定正規分布、t分布単一の変数の平均値と所与の基準値とに差があるかどうか
対応ある標本の平均値の検定t分布対となっている2変数の平均に差があるかどうか
独立した標本の平均値の検定t分布相互に独立した2変数の平均に差があるかどうか
分散分析(ANalysis Of VAriance)F分布値の散らばり(平均値のズレ)を作り出す要因の有無
分散(variance)χ2検定χ2分布基準状態からのズレの大きさの判定
2標本の分散の差の検定(F検定)F分布2変数の分布の散らばりに差があるかどうか
複数の変数間の関係相関有意性はt検定複数の変数の関係の有無とその強度
回帰分析有意性は分散分析とt検定複数の変数の関係をモデル化
複数のカテゴリー変数の関係分割表(クロス集計)有意性はχ2検定カテゴリー間の関係の有無