Excelで学ぶ統計講座(初級)

平均値と分布

本章で用いる実習用ファイル

μ国では大学生のスマートフォンの利用が勉学に悪影響を及ぼしているのではないかと社会問題化している。A大学でも学生のスマートフォン利用時間が増大しているのではないかと懸念が出て、独自に調査することになった。教育省が全国の大学生について1年前に調査した時には平均利用時間180分分散5,500)であった。今回A大学は全学生の中から500人を無作為抽出を行い、スマートフォン利用時間について調べたところ、下記データが得られた。

ABCDEFGHI
1Nogenderfacultytime平均値分散
21femalescience150基準値180.005500.00
32femalelaw266A大学
43malescience293
μ国A大学スマートフォン利用時間調査データ
変数
time(比例尺度)
D2:D501

このデータより、A大学の学生のスマートフォン利用時間は1年前の全国大学平均と比べて利用時間が長いと言えるだろうか?

平均値の算出とグラフ作成

  1. A大学の平均値を求める。
    FG
    1平均
    2基準値180.00
    3A大学=AVERAGE(time)
  2. F2:G3のデータで棒グラフを作成する。
    FG
    1平均
    2基準値180.00
    3A大学185.764

解答例

図1-1 A大学学生のスマートフォン利用時間

図1-1よりA大学学生は1年前の学生の全国平均と比較して、スマートフォン利用時間は長いことが分かる。

問題1:グラフ評価

この解釈は妥当だろうか?

グラフの評価と修正

解答例表示

解答例グラフ修正

図表1-1改 A大学学生のスマートフォン利用時間
平均
基準値180.00
A大学185.7

図表1-1改よりA大学学生のスマートフォン利用時間の平均は1年前の学生の全国平均と比較して、5.76分長い。

問題2:次の方針

この6分弱の差から何を読み取るべきだろうか。

  1. 表およびグラフから差がないと読み取る
  2. 表およびグラフから特筆するほどの差があるとも読み取れないので、スルーする(このデータから議論を進めるのを断念する)
  3. 差があると言える可能性があるので、さらに分析を進める

あなたならどの方針で進めるか?

解答例表示

解答例

  • 量的調査系の理論では不可。「差がない」ことは統計的には論証できない。
  • データから主張を引き出すことを断念する「権利」はいつでもある。
  • 分析を続けるのであれば、まずは分布をグラフ(ヒストグラム)にする。
  • 度数分布表とヒストグラム

    1. 基本統計量を求める
      FG
      5サンプルサイズ=COUNT(time)
      6平均値=AVERAGE(time)
      7中央値=MEDIAN(time)
      8最頻値
      9最大値=MAX(time)
      10最小値=MIN(time)
      11範囲=G9 - G10
      12分散=VAR.S(time)
      13標準偏差=STDEV.S(time)
    2. 度数分布表を作成する
      1. ビンの設定

        サンプルサイズが「500」、最小値が「0」、最大値が「1260」、範囲が「1260」から、最小「0」区切り幅「100」のビンを設定する。

      2. 度数分布表を作成
        IJ
        5ビン人数
        60=COUNT(IF((time>=I6)*(time<I7),1))
        710076
        8200117
        9300113
        104008
        115003
        126000
        1812001
      3. 区切り幅の見直し

        最大値が外れ値となっており、実質的な階層は6層と少なく、階層あたりの人数が多い。もっと区切りを細かく設定した方が良い。

        最小「0」区切り幅「50」でビンを設定し直す。

      4. 度数分布表作り直し
        IJ
        5ビン人数
        60105
        75077
        810038
        915038
        1020050
        1125067
        1230079
        3112501
      5. ヒストグラムを作成する
        図1-2 A大学スマートフォン利用時間ヒストグラム

    分布が山型ではないので平均値に関する信頼性は高くない。最頻値(25)など他の代表値で議論を進めることを検討する。

    ただし今回は比較対象が平均値しかないので、分析を続けるのは困難。