ソフトウェアを用いたデータ分析法
講義概要/Course outline
学術分野のみならず、ビジネス分野においてもデータ分析の需要が高まっており、そうした需要に応えるべくコンピュータを用いたデータ分析手法を身につけていることには大きな意義がある。
本実習は今後本格的にデータ分析を行うために専門ソフトウェアを利用していく際の導入となることを目的とする。こうしたソフトウェアは完全に自学自習するのは難しいが、一度触れておけば今後学習を進めていく上での障壁は大幅に低くなる。この機会に学習することを強くお勧めする。
本実習で用いるデータ分析用ソフトウェアはExcel、SPSS、Rだが、特にフリーの統計ソフトとして近年人気が高まっているRを中心として取り扱う。PCをもちいた統計処理分野における流行を追ってみることにしよう。
到達目標/Attainment objectives
ソフトウェアを用いたデータ分析の基本的な技術を習得する。
- 各分析が具体的に何を計算しているのか、統計的な観点から理解する。
- SPSS・Rを用いた実践的なデータ分析を行う。
- SPSS・Rの出力結果を見て、どのような知見が得られたのか、読み取れるようになる。
講義方法/Study Method
実習形式
- Excelを用いて具体的に数式を提示することにより、各分析の意味を解説する。
- SPSS・Rを用いた実践的なデータ分析の操作を実践する。
- SPSS・Rによる出力結果の読み方を解説する。
担当者からひと言/Advice to students on study and research methods
せっかく社会学部にいるのだから、データ分析用ソフトウェアに触れる機会を持つことは必須といっても良いだろう。特に本実習で主として取り扱うRは自学自習が難しいだけに実習で触れる機会を持つことは非常に意義深いと考える。Excelによるデータ処理とは少し違った世界を見てみよう。
実習内容
データ分析概要とソフトウェア(09/20)
- 到達目標
-
- 社会調査全般のなかでの本実習のカバレッジを把握する。
- 統計で用いられるデータの種類を理解する。
- 統計データを処理できるソフトウェアの特性を理解する。
- SPSSを使ってみる。
- Rを使ってみる。
- 本実習の位置付け
-
社会調査士のカリキュラムにおける「B」「C」「D」の内容をコンピュータを用いて実践する。
- 社会調査
-
- 量的調査と質的調査
- 全数調査と標本調査
- 量的データ・質的データ
- 記述統計と推測統計
- 統計データを処理できるソフトウェア
-
- Excel
- SPSS
- R
- SPSSを使ってみる
- R入門
データ分析用ソフトウェアの基本操作(09/27)
- 到達目標
-
- Rの操作体系を理解する。
- 「欠損値」についての考え方を知る。
記述統計1(10/04)
- 到達目標
-
- 基本統計量を算出できるようになる。
- 各統計量の意味や特性を理解する。
- 基本統計量
-
- 代表値
- 最大値・最小値
- 範囲
- 資料・課題
記述統計2(10/11)
- 到達目標
-
- 「分散」という概念の意義や重要性を理解する。
- データの概略を可視化する意義を理解する。
- 基本統計量2
-
- 散布度
- 分散
- 標準偏差
記述統計3(10/25)
- 到達目標
-
- 度数分布表を作成できるようになる。
- 箱ひげ図が読めるようになる。
- ヒストグラム
-
- 区切り幅
- 度数
- スケール尺度データの最頻値
- 箱ひげ図
-
- 五数要約(最小値,第1四分位点,中央値,第3四分位点,最大値)
- 平均値と外れ値
記述統計総合実習(11/01)
- 到達目標
-
- SPSSで記述統計を行う
- Rで記述統計を行う
- SPSSで記述統計
- Rで記述統計
- 平均値に関する論証1
推測統計:平均値に関する検定1(11/08)
- 到達目標
-
- 推測統計の基本的な考え方を理解する。
- 「不偏分散」「自由度」という概念の意義を理解する。
- 母平均に関する検定について、正規分布を元に理解する。
- 推測統計と検定
- 分析手法
-
- 平均値に関する分析
- 分散に関する分析
- 複数の変数の関係
- 正規分布とZ検定
-
- 中心極限定理と正規分布
- 平均値の差(長さ)をその差が偶然生じる確率(面積)に変換
- z検定
-
- 検定統計量Z値
- p値
- 平均値に関する論証2
推測統計:平均値に関する検定2(11/15)
- 到達目標
-
- 母平均に関する区間推定とZ検定を行えるようになる。
- z検定
-
- 検定統計量Z値
- p値
- 区間推定
-
- 標準誤差
- 信頼度
- 棄却値
- 信頼下限と信頼上限
- χ2分布と母分散に関する検定
-
- 母分散に関する検定
- 平均値に関する論証2
推測統計:平均値に関する検定3(11/22)
- 到達目標
-
- 「自由度」という概念の意義を理解する。
- t検定を行えるようになる。
- 「効果量」という概念の意義を理解する。
- 効果量
-
- 検定統計量と効果量
- t分布とt検定
-
- t分布
- 不偏分散、自由度、標準誤差(cf.標本分散から,標本不偏分散へ)
- 検定統計量t値とp値
- 平均値に関する論証3
グループ間で平均に差はあるのか1(二標本のt検定)(11/29)
- 到達目標
-
- 2グループ間の平均の差の検定の基本的な考え方を理解する。
- 複数の分析手法の特質の違いとその都度の適用の方針を理解する。
- 2グループ間の平均の差の検定
- 平均値に関する論証
グループ間で平均に差はあるのか2(一元配置の分散分析)(12/06)
- 到達目標
-
- 分散分析の基本的な考え方を理解する。
- 実践的な場面で分散分析を行えるようになる。
- 分散分析概要
- 一元配置の分散分析
-
- Studentのt検定との異同
- 因子による分散と残差による分散
- 分散比Fとその分布(F分布)
- F(片側)検定
- 3グループ以上の平均差の検定
- 効果量η2
- Welch修正(平均値同等性の耐久検定)
- 分散分析の事例
グループ間で選好に違いはあるのか1(クロス集計とその検定)(12/13)
- 到達目標
-
- クロス集計を行えるようになる。
- クロス集計表の作成
-
- 度数
- 周辺度数
- グラフ表現
-
- 比率計算
- 帯グラフ
グループ間で選好に違いはあるのか2(クロス集計とその検定)(12/20)
- 到達目標
-
- χ2検定の概要を理解する。
- クロス集計表から何が読み取れるのかを明確に記述できるようになる
- SPSSでクロス集計を行う
- Rでクロス集計を行う
- クロス集計表の独立性の検定
-
- ノンパラメトリック検定
- 実測値・理論値・残差
- Χ2検定
- 連関係数(効果量)
-
- φ係数
- クラメールの連関係数
- 残差分析
-
- 調整済み残差
- Z検定
- Rでクロス集計
- SPSSでクロス集計
データ間の関連モデルを作る(相関分析・回帰分析)(01/10)
- 到達目標
-
- 散布図と相関係数の関係を理解する。
- 相関行列を用いて知見を得られるようになる。
- 2変数の関係とグラフ表現
-
- 散布図と近似直線
- 正の相関と負の相関
- 因果関係と相関関係
- 関係の強度(効果量)を表す相関係数
-
- 共分散
- 相関係数
- 決定係数
- 相関係数の有意性検定
-
- 自由度
- 標準誤差
- 検定統計量
- t検定
複数の要因の絡まりを解きほぐす(偏相関・重回帰分析)(01/17)
- 到達目標
-
- (単)回帰分析の概要を理解する。
- 偏相関係数の読み取り方を理解する。
- 疑似相関を理解する。
- 重回帰分析の概要を理解する。
- ダミー変数の扱い方を理解する。
- 重回帰分析におけるモデル選択の手法を理解する。
- 単回帰分析
-
- 最小二乗法
- 回帰直線
- 回帰分析の有意性
- 疑似相関
-
- 疑似相関
- 偏相関係数
- 重回帰分析
-
- 偏回帰係数とその有意性
- 標準化偏回帰係数
- 重回帰分析
- モデル選択
使用ツール・参考サイト
参考文献
- Rによるやさしい統計学 Kindle版 山田剛史, 杉澤武俊, 村井潤一郎 オーム社 2013年