平均に関する論証1:社会調査情報処理実習A 2組

平均に関する論証1

量的調査データの「解釈」

量的調査データにおいて、解釈は「記述・推測的解釈」と「批評的解釈」の二段階に分けて行う。

主張

←批評的解釈

統計的知見

←記述・推測的解釈

量的調査
データ

文脈(サンプル)

文脈(母集団)

記述・推測的解釈…統計に基づく「解釈」(脱文脈的)
批評的解釈…外部理論などに基づく「解釈」(文脈依存的)

例題1:平均値と分布

μ国では大学生のスマートフォンの利用が勉学に悪影響を及ぼしているのではないかと社会問題化している。A大学でも学生のスマートフォン利用時間が増大しているのではないかと懸念が出て、独自に調査することになった。教育省が全国の大学生について1年前に調査した時には平均利用時間180分（分散5,500）であった。今回A大学は全学生の中から500人を無作為抽出を行い、スマートフォン利用時間について調べたところ、下記データが得られた。

このデータより、A大学の学生のスマートフォン利用時間は1年前の全国大学平均と比べて利用時間が長いと言えるだろうか？

μ国A大学スマートフォン利用時間調査データ

解答例

図1-1よりA大学学生は1年前の学生の全国平均と比較して、スマートフォン利用時間は長いことが分かる。

問題1

この解釈は妥当だろうか？

解答例グラフ修正

	基準値	A大学
平均値	180	185.76

図表1-1改よりA大学学生のスマートフォン利用時間の平均は1年前の学生の全国平均と比較して、5.76分長い。

問題2 この先の分析方針

この6分弱の差から何を読み取るべきだろうか。

表およびグラフから差がないと読み取る
表およびグラフから特筆するほどの差があるとも読み取れないので、スルーする(このデータから議論を進めるのを断念する)
差があると言える可能性があるので、さらに分析を進める

あなたならどの方針で進めるか？

解答例

量的調査系の理論では不可。「差がない」ことは統計的には論証できない。
データから主張を引き出すことを断念する「権利」はいつでもある。
分析を続けるのであれば、まずは分布をグラフにする。

分布が山型ではないので平均値に関する信頼性は高くない。最頻値など他の代表値で議論を進めることを検討する。

ただし今回は比較対象が平均値しかないので、分析を続けるのは困難。

例題2:Z検定

μ国では大学生のスマートフォンの利用が勉学に悪影響を及ぼしているのではないかと社会問題化している。B大学でも学生のスマートフォン利用時間が増大しているのではないかと懸念が出て、独自に調査することになった。教育省が全国の大学生について1年前に調査した時には平均利用時間180分（分散5,500）であった。今回B大学は全学生の中から500人を無作為抽出を行い、スマートフォン利用時間について調べたところ、下記データが得られた。

このデータより、B大学の学生のスマートフォン利用時間は1年前の全国大学平均と比べて利用時間が長いと言えるだろうか？

μ国B大学スマートフォン利用時間調査データ

結果出力例

	基準値	B大学
平均値	180	185.83

問題1

図表2は図表1改と同等の結果に見える。ならば同等に結論づけてよいか。

A大学とB大学のスマートフォン利用時間データにおいて、決定的な違いはどこにあるか。

作業

B大学のデータについてヒストグラムを作成せよ。
A大学のヒストグラム（図1-2）との違いを簡潔に説明せよ。
A大学の分散とB大学の不偏分散を各々求めよ。

Rスクリプト例

#分析用スクリプトの読み込み(初回のみでよい)
source("http://kyoto-edu.sakura.ne.jp/weblesson/statistics/socialStatisticsBasic.R", encoding="UTF-8")

#データの読み込み
dataA <- read.csv("http://kyoto-edu.sakura.ne.jp/weblesson/statistics/data/smartphone00-A.csv", fileEncoding = "utf-8")
dataB <- read.csv("http://kyoto-edu.sakura.ne.jp/weblesson/statistics/data/smartphone00-B.csv", fileEncoding = "utf-8")

#読み込みデータ概要確認
summary(dataA)
summary(dataB)

#変数指定
time.A <- dataA$time
time.B <- dataB$time

#利用時間のヒストグラムと度数分布表
start <- 0 #区切りの開始位置
width <- 25 #区切りの幅

#記述統計
output.descriptive_00_A <- descriptive(time.A,start,width)
output.descriptive_00_B <- descriptive(time.B,start,width)

#ファイルへの書き出し
write.output(output.descriptive_00_A,"output.descriptive_00_A.csv")
write.output(output.descriptive_00_B,"output.descriptive_00_B.csv")

結果出力例

B大学の分布は平均付近を中心とした山型となっており、A大学のデータと異なり、平均値に意味を読み取ることが出来る。

A大学データの不偏分散:18507.72
B大学データの不偏分散: 3223.81

問題2

B大学のデータについて、基準値(180分)を上回っていると言えるか。

Z検定を行い、Z値とp値を求めよ
片側検定か両側検定かを判断し、結果を読み取れ（「記述・推測的解釈」）。
「有意」と判断(信頼度95%)できた場合は検定結果から読み取れる「主張」を簡潔に記述せよ（「批評的解釈」）。

記述・推測的解釈…統計から得られた知見を客観的に記述する。
批評的解釈…統計的知見を「根拠」として、文脈に合わせて自由に議論を進める。

主張テンプレート

B大学学生のスマートフォン平均利用時間が1年前の全国平均(180.00)と差があるかどうかを平均の差の検定を用いて検証した。今回の調査で得られた標本の平均利用時間は○である。Z検定（片側/両側）より5%の危険度で有意であると確認できた（Z=●, p<.05）。

この結果よりB大学学生のスマートフォン平均利用時間は1年前の全国平均より■■。

…（以下、批評的解釈に基づく主張）

Rスクリプト例

#分析用スクリプトの読み込み(初回のみでよい)
source("http://kyoto-edu.sakura.ne.jp/weblesson/statistics/socialStatisticsBasic.R", encoding="UTF-8")

#データの読み込み(前回と同じデータを用いるので省略可)
dataB <- read.csv("http://kyoto-edu.sakura.ne.jp/weblesson/statistics/data/smartphone00-B.csv", fileEncoding = "utf-8")

#変数指定(前回と同じ変数を用いるので省略可)
time.B <- dataB$time

#基準値設定
testVal <- 180
sigma2 <- 5500

#z検定
output.z.test_00_B <- z.test(time.B,testVal,sigma2)

#結果出力
output.z.test_00_B

#ファイルへの書き出し
write.output(output.z.test_00_B,"output.z.test_00_B.csv")

出力結果

$statistics
                 summary
N              500.00000
df             499.00000
mean           185.83400
u2            3223.81407
u               56.77864
Missing Value    0.00000

$z_test
                z-test
SE          3.31662479
Z           1.75901718
rejection   1.95996398
p(!=)       0.07857459
p(>)        0.03928729
p(<)        0.96071271
Upper     192.33446514
Lower     179.33353486

主張例

B大学学生のスマートフォン平均利用時間が1年前の全国平均(180.00)より長いかどうかを平均の差の検定を用いて検証した。今回の調査で得られた標本の平均利用時間は185.83である。Z検定（片側）より5%の危険度で有意であると確認できた（Z=1.76, p<.05）。

この結果よりB大学学生のスマートフォン平均利用時間は1年前の全国平均より長い。

全国水準でなされた学生のスマートフォン利用時間が長すぎるという懸念に関して、B大学学生も当てはまるものと考えられる。

課題2

μ国の全大学生のスマートフォン平均利用時間は180分（分散5,500）である。B大学は全学生の中から500人を無作為抽出を行い、スマートフォン利用時間について調べたところ、下記結果が得られた。

	基準値	B大学
平均値	180	185.83

この結果より、B大学の学生のスマートフォン利用時間は1年前の全大学生平均と比べて利用時間は長いと言えるだろうか？

μ国B大学スマートフォン利用時間調査データ(再掲)

主張例

B大学学生のスマートフォン平均利用時間が1年前の全国平均(180.00)と差があるかどうかを平均の差の検定を用いて検証した。今回の調査で得られた標本の平均利用時間は185.83である。Z検定（両側）より5%の危険度で有意性が観られなかった（Z=1.76, p=.08）。

例題3:t検定と効果量

μ国では大学生のスマートフォンの利用が勉学に悪影響を及ぼしているのではないかと社会問題化している。教育省は各大学に在籍生のスマートフォン平均利用時間が180分を有意に上回ると当該大学に指導対象とする通達を出すという。今回B大学は全学生の中から500人を無作為抽出を行い、スマートフォン利用時間について調べたところ、下記データが得られた。

	基準値	B大学
平均値	180	185.83

このデータより、B大学は教育省が定めるスマートフォン利用時間基準値180分を有意に上回っていると言えるだろうか？

μ国B大学スマートフォン利用時間調査データ(再掲)

問題

※今回のケースでは基準値側の分散(母分散)は不明である。

t検定を行い、有意性の確認をせよ(t値、自由度、p値)。
効果量rを求め、平均差の意義を確認せよ。
ここまでで得られた知見をもとに「記述・推測的解釈」を行え。
問題文中の文脈を踏まえ、主張を簡潔に述べよ(「批評的解釈」)。

主張テンプレート

B大学学生のスマートフォン平均利用時間が教育省が定める基準時間(180.00)より長いかどうかを平均の差の検定を用いて検証した。今回の調査で得られた標本の平均利用時間は○である。t検定（片側/両側）より5%の危険度で有意であると確認できた（t(◆)=●, p<.05,r=▲）。

この結果よりB大学学生のスマートフォン平均利用時間は教育省が定める基準時間より…（以下、批評的解釈に基づく主張）。

◆…自由度
●…t値
▲…効果量

Rスクリプト例

#分析用スクリプトの読み込み(初回のみでよい)
source("http://kyoto-edu.sakura.ne.jp/weblesson/statistics/socialStatisticsBasic.R", encoding="UTF-8")

#データの読み込み(前回と同じデータを用いるので省略可)
dataB <- read.csv("http://kyoto-edu.sakura.ne.jp/weblesson/statistics/data/smartphone00-B.csv", fileEncoding = "utf-8")

#変数指定
time.B <- dataB$time

#基準値設定
testVal <- 180

#t検定
output.t.test_00_B <- z.test(time.B,testVal)

#結果出力
output.t.test_00_B

#ファイルへの書き出し
write.output(output.t.test_00_B,"output.t.test_00_B.csv")

出力結果

$statistics
                 summary
N              500.00000
df             499.00000
mean           185.83400
u2            3223.81407
u               56.77864
Missing Value    0.00000

$t_test
                t-test
SE          2.53921802
t           2.29755774
rejection   1.96472939
p(!=)       0.02199992
p(>)        0.01099996
p(<)        0.98900004
Upper     190.82287627
Lower     180.84512373
d           0.10274991
r           0.10231306

主張例

B大学学生のスマートフォン平均利用時間が教育省が定める基準時間(180.00)より長いかどうかを平均の差の検定を用いて検証した。今回の調査で得られた標本の平均利用時間は185.83である。t検定（片側）より5%の危険度で有意であると確認できた（t(499)=2.30, p<.05,r=0.10）。

この結果よりB大学学生のスマートフォン平均利用時間は教育省が定める基準時間より長い。教育省の指導対象とされる公算が強い。

※効果量r=0.10であることから、それほど積極的にその差を主張できる結果ではない。

課題3

μ国内大学運動部に在籍する男子学生から500人を無作為に抽出して、走り高跳びの記録を計測したところ、下記データが得られた。教育省が定める男子運動部走り高跳びの目標記録は180cmである。

教育省の定める目標記録を踏まえて、μ国大学運動部に在籍する男子学生の走り高跳びの平均記録に関する現状について論じよ。

μ国学生男子運動部走り高跳び記録データ

小レポートテンプレート:μ国学生男子運動部走り高跳びの現状

μ国では運動部所属学生の運動能力向上に資するよう、教育省が各種競技記録について目標記録を定め、随時運動部所属学生の運動能力のチェックを行っている。そのデータを用いて、μ国運動部所属学生の運動能力の現状について考察したい。今回は運動部に在籍する男子学生から500人を無作為に抽出して、走り高跳びの記録を計測したデータを用いる。

表1 走り幅跳び記録
	基準値	今回サンプル
平均値	180	*.

ヒストグラムを作成せよ

図1 μ国学生男子運動部走り高跳び記録のヒストグラム

…(以下、記述・推測的解釈に基づく主張)。

…(以下、批評的解釈に基づく主張）。

Rスクリプト例

#分析用スクリプトの読み込み(初回のみでよい)
source("http://kyoto-edu.sakura.ne.jp/weblesson/statistics/socialStatisticsBasic.R", encoding="UTF-8")

#データの読み込み
dataJump <- read.csv("http://kyoto-edu.sakura.ne.jp/weblesson/statistics/data/high_jump.csv", fileEncoding = "utf-8")

#基準値設定
testVal <- 180

#変数指定
record.Jump <- dataJump$record

#利用時間のヒストグラムと度数分布表
start <- 165 #区切りの開始位置
width <- 1 #区切りの幅

#記述統計
output.descriptive_00_Jump <- descriptive(record.Jump,start,width)

#ファイルへの書き出し
write.output(output.descriptive_00_Jump,"output.descriptive_00_Jump.csv")

#t検定
output.t.test_00_Jump <- z.test(record.Jump,testVal)

#結果出力
output.t.test_00_Jump

#ファイルへの書き出し
write.output(output.t.test_00_Jump,"output.t.test_00_Jump.csv")

解答例:μ国学生男子運動部走り高跳びの現状

表1 走り幅跳び記録
	基準値	今回サンプル
平均値	180	185.64

データから得られたサンプルの平均記録185.64が教育省の定める目標記録180を上回っているかどうか、平均の差の検定を用いて検証した。t検定（片側）より5%の危険度で有意である（t(499)=14.42, p<.01,r=0.54）。この結果よりμ国大学運動部に在籍する男子学生の走り高跳びの記録は教育省が定める目標記録を上回っていると言える。

μ国運動部所属男子学生の走り高跳び記録に関しては、大きな課題は見当たらず、順調であると言える。図1の分布より平均付近の学生への指導を充実させれば、さらに記録を伸ばすことも可能であろう。