R基本統計量
基本統計量の出力はヒストグラム・箱ひげ図の描画には個別に関数が用意されているが、一気に出力するのは手間がかかる。そこで前回取り込んだスクリプトを使ってみる。
とあるグループの身長と年齢データ(excelCrossTab01.csv)を用いる。
関数の入力には補完機能(tabキー)を適宜用いると良い。
基本統計量とヒストグラム
身長を5cm区切りで設定する。
Rスクリプト
descriptive関数(socialStatisticsBasic.Rで読み込まれる自作関数)
- descriptive(value,start,width,right,col)
-
- value=基本統計量を算出したい間隔・比例尺度のベクトルデータ (例) c(1,3,2,6)
- start=ヒストグラムビンの開始位置(省略時はxの最小値)
- width=ヒストグラムビンの幅(省略時はスタージェスの公式による)
- right=FALSE→区切りを[以上~未満]で設定する;TRUE→区切りを[より大きい~以下]で設定する(省略時はFALSE)
- col=棒の色(省略時はroyalblue)
出力結果
- Vとsdは定義上の(標本)分散と(標本)標準偏差である。spssで求められる(不偏)分散と標準偏差はu2,uである。
- SPSS(やExcelのFrequency関数)とヒストグラムの形が違うのは、区切り幅を[以上~未満]で設定しているためである(SPSSでは[より大きい~以下])。
- SPSSでは最頻値の計算はされない。Excelのmode関数は区切りを設定せず、単に同じ数値の頻度を見ているだけなので、実質使い物にならない。
本スクリプトでは度数分布表でもっとも度数の大きい区間(155~160)の中央値(157.5)を最頻値としている。
グループ別基本統計量と箱ひげ図
グループごとにデータの平均や分布・散らばりを比較したい時にはヒストグラムよりも箱ひげ図が便利である。
Rスクリプト
descriptive.grouping関数(socialStatisticsBasic.Rで読み込まれる自作関数)
- descriptive.grouping(formula,col)
- formula=「従属変数~因子」の形式で記述する。
- 従属変数=基本統計量を算出したい間隔・比例尺度変数
- 因子=グループ化変数(カテゴリ変数)
- col=棒の色(省略時はdarkorange)
出力結果