社会調査情報処理実習A 2組

2020年度 後期 木04 15:15-16:45 online

ソフトウェアを用いたデータ分析法

講義概要/Course outline

学術分野のみならず、ビジネス分野においても統計を用いたデータ分析の需要が高まっている。社会学部出身者は統計を一定理解していることが期待されてしかるべきであり、本学部でも統計分野に関する様々な講義が行われている。しかしその一方で統計をしっかり理解するにはなかなかに困難を伴うことも確かである。

統計分野を理解するには座学だけでなく、実際に手を動かして作業することが早道である。自分でデータを操作し、結果を出力し、その結果を読み取る。そうした作業の積み重ねが統計への理解を深めてくれるだろう。

本実習では統計の基礎知識を定着させるべく、まずはExcelを使用し、集計(統計量の出力)、グラフ作成、グラフの読み取り、そしてその評価(検定)の仕方を説明する。Excelの基本操作の復習も行う。

その後、さらに実践的なデータ分析手法を体得するべく、Rという統計用ソフトウェアのインストール・操作方法とそれらを用いたデータ分析手法を紹介する。

到達目標/Attainment objectives

ソフトウェアを用いたデータ分析の基本的な技術を習得する。

  1. Excelの基本操作の復習を行い、実用的に使えるようになる。
  2. 統計の基本的な概念や分析手法の意味を理解し、扱えるようになる。
  3. Excel・Rを用いた基本的なデータ分析を行えるようになる。
  4. 出力結果を見て、どのような知見が得られたのか、読み取れるようになる。

※ライティング実習1BでExcelの基本操作は習得することになっているが、現状半期のカリキュラムでは全く不足している。就職後にExcelを「普通に使える」と見なされるレベルのスキルを習得するには本実習を受講して欲しい。

講義方法/Study Method

講義形態
オンデマンド動画配信方式による操作実習と解説
資料配付
ウェブサイト上で全ての資料と解説を公開する
課題提出
manabaの「レポート」によるファイル提出
各回の進め方例

動画でソフトウェアの操作を、解説を交えて行う。受講者は動画を見ながら、操作実習を進める。

  1. Excelを用いてデータを整理・集計し、グラフを作成する手順の復習を行う。
  2. 統計分野の基本概念や分析方法の意味を解説する。
  3. Excel・Rを用いて実際にデータ分析を行う。
  4. 出力結果の読み方を解説する。
受講者が用意する必要がある環境

受講環境については個別に対応するので、不安・問題があれば授業開始後でも構わないのでいつでも相談して欲しい

必須
パソコン
  • WindowsまたはMacOS搭載
  • Microsoft Excelがインストールされていること
  • インターネットに接続できること
推奨
  • 容量制限がない通信環境
  • 動画視聴画面と実習画面の二画面用意できれば理想的
    • ノートPCと外付けモニタ(テレビ可)によるデュアルモニタ
    • 動画視聴用タブレット(スマホだと画面が小さくて見づらい)

系統的履修/System of study

  • 本実習を受講することにより、ライティング実習1Bで学んだExcelの基本操作を定着させることができます。
    • 統計分野の授業(社会統計学・統計入門など)で学んだ内容を基礎から復習することができます。
    • 統計分野の授業を未受講の学生には今後統計分野を学習する際の入り口となります。

担当者からひと言/Advice to students on study and research methods

統計分野の授業を既習の学生も未習の学生も歓迎する。統計の授業を受けたが、よく分からなかった、いまいち理解が足りていないと感じている学生には特に受講して貰いたい。

またライティング実習1BでExcelを学んだが、もう少し深く学びたい、きちんと技術を定着させたいと思っている学生にも受講して欲しい。

実習内容

順次公開

データ分析概要とソフトウェア(09/28)

到達目標
  • 統計データを処理できるソフトウェアの特性を理解する。
  • 統計ソフト「R」をインストールする。
  • Excelの基本操作を確認する。
本実習の位置付け

社会調査士のカリキュラムにおける「B」「C」「D」の内容をコンピュータを用いて実践する。

統計データを処理できるソフトウェア
Excel復習

Excelの使いこなし(10/05)

到達目標
  • Excelの応用的な使い方を習得する
Excel応用

基本統計量(10/12)

到達目標
  • 社会調査全般のなかでの本実習のカバレッジを把握する。
  • 各統計量の意味や特性を理解する。
  • 統計で用いられるデータの種類を理解する。
  • Excelを用いて集計・グラフ作成を行う。
社会調査概略
基本統計量
  • 代表値
  • 最大値・最小値
  • 範囲
  • 散布度
  • 分散
  • 標準偏差

ヒストグラム・箱ひげ図(10/19)

到達目標
  • 度数分布表とヒストグラムの意義を理解する。
  • Excelで度数分布表とヒストグラムを作成する。
  • Excelでグループごとの集計を行う。
  • Excelで箱ひげ図を作成する。
  • 分布と平均値との関係を理解する。
度数分布表とヒストグラム
  • 区切り幅
  • 度数
  • スケール尺度データの最頻値
グループ別集計
  • 基本統計量
  • 箱ひげ図

Rを用いた記述統計(10/26)

到達目標
  • Rの設定をする。
  • Rで独自関数を読み込む。
  • Rでデータファイルを読み込む。
  • Rで基本統計量を求める。
  • Rでヒストグラム・箱ひげ図を作成する。
  • R出力結果をcsvファイルに出力する。
R入門

平均値の比較とその検定1(11/02)

到達目標
  • 推測統計の基本的な枠組みを理解する。
  • 「平均の差の検定」を行う前提条件を理解する。
  • 平均の差の検定の意義を理解する。
推測統計の諸概念
基準値との比較1

平均値の比較とその検定2(11/09)

到達目標
  • 片側検定と両側検定を正確に理解する
  • 平均の差を標準化する意義と方法を理解する
  • p値とは何かを理解する
推測統計の諸概念(再掲)
基準値との比較2

平均値の比較とその検定3(11/16)

到達目標
  • 区間推定の意味を理解する
  • 自由度という概念を理解する
  • 分散の推定値を用いたときの基準値との平均値の比較を行う
基準値との比較2

平均値の比較とその検定4(11/23)

到達目標
  • 効果量という概念の意義を理解する
  • 対応ある2標本間の平均の比較検定を適切に行えるようになる。
  • 独立した2グループ間での平均の比較検定の基本的な考え方を理解する。
推測統計の諸概念
対応ある2標本間の平均の差の検定
独立した2グループ間での平均差の検定

平均値の比較とその検定5(11/30)

到達目標
  • 「ロバスト」という概念を知る。
  • 独立した2グループ間での平均の比較を適切に行えるようになる。
  • F検定の概要を理解する。
  • 一元配置分散分析の概要を理解する。
独立した2グループ間での平均差の検定
t検定実践
F検定
  • F値
  • F分布
分散分析概要
一元配置要因分散分析

平均値の比較とその検定6(12/07)

到達目標
  • 分散分析の計算内容を理解する。
  • 「ロバスト」という概念を再確認する。
一元配置の分散分析
  • Studentのt検定との異同
  • 因子による分散と残差による分散
  • 分散比Fとその分布(F分布)
  • F(片側)検定
  • 3グループ以上の平均差の検定
  • 効果量η2
  • Welch修正(平均値同等性の耐久検定)

平均値の比較とその検定7(12/14)

到達目標
  • 「検定の繰り返し」の問題を理解する。
  • 多重比較検定を理解する。
  • Rの操作を再確認する。
  • 一元配置分散分析の意義とソフトウェアによる出力の読み取りを再確認する。
  • Excelを用いてクロス集計表を作成できるようになる。
  • 比率の比較をする際のグラフ作成のポイントを理解する。
多重比較検定
  1. 検定の繰り返し
  2. Bonferroni調整
  3. Tukey-Kramer
  4. Games-Howell
分散分析の事例
クロス集計表の作成
  • 度数

クロス集計とその検定(12/21)

到達目標
  • 「期待値」という概念を再確認する。
  • χ2検定の概要を理解する。
  • クロス集計表独立性の検定におけるχ2検定の限界を知る。
クロス集計表の作成
  • 度数
  • 周辺度数
グラフ表現
  • 比率計算
  • 帯グラフ
クロス集計表の独立性の検定
  • ノンパラメトリック検定
  • 実測値・理論値・残差
  • Χ2検定
連関係数(効果量)
  • φ係数
  • クラメールの連関係数
χ2検定の限界
残差分析
  • 調整済み残差
  • Z検定

相関関係(01/11)

到達目標
  • 散布図と相関係数の関係を理解する。
  • 相関係数の求め方を理解する。
  • 無相関検定の意義と方法を理解する。
  • 偏相関係数の読み取り方を理解する。
  • 疑似相関を理解する。
  • (単)回帰分析の概要を理解する。
  • 直線の傾きと切片を計算する。
2変数の関係とグラフ表現
  • 散布図と近似直線
  • 正の相関と負の相関
  • 因果関係と相関関係
関係の強度(効果量)を表す相関係数
  • 共分散
  • 相関係数
  • 決定係数
相関係数の有意性検定
  • 自由度
  • 標準誤差
  • 検定統計量
  • t検定
疑似相関
  • 疑似相関
  • 偏相関係数
単回帰分析
  • 最小二乗法
  • 回帰直線
  • 傾きと切片

回帰分析(01/18)

到達目標
  • 回帰分析の有意性を理解する。
  • 重回帰分析の概要を理解する。
  • (補講)ダミー変数の扱い方を理解する。
  • (補講)重回帰分析におけるモデル選択の手法を理解する。
回帰分析の有意性
重回帰分析
(補講)モデル選択

使用ツール・参考サイト

参考文献