データを処理する手順を知る
データを処理する手順を知る
組み合わせがない数量データのケースは、並び替えをし、異常値を処理する
さて、いよいよデータの処理に取り組みます。
組み合わせがない数量データを見やすくする処理です。
最初の作業は、「データの並び替え」をしてみましょう。大きい順か小さい順に並び替えて見ます。
なぜ最初に並び替えをするかといいますと、大きく二つの目的があります。
ひとつ目の目的はデータ全体の範囲をつかみ、次の階級をつける作業の準備です。
二つ目の目的は、大きく外れたデータ(異常値という)があるかどうかを見極めることです。
今ここに、例題として男子大学生の身長に関する調査データがあります。
これを小さな順に並び替えをします。表計算ソフトを使うと簡単に並び替えをしてくれます。
その結果、次のことがわかります。
@データは156から184の範囲にある。
A外れた値のデータはなさそうである。
さらに最小値は156、最大値は184です。さらにもうひとつ中央値という特性がわかります。
中央値とは順番に並べた真ん中の値のことをいいます。
データの数が奇数個ですと真ん中の数にあたりますが、データの数が偶数個のときは真ん中の二つのデータの平均になります。
真ん中の二つの値がともに同じなら、その値が中央値となります。
異常値の処理を考える
異常値とは、飛び離れた値をとるデータです。
事実として離れているデータであるならそれは大きな情報となります。
しかし、測定ミスや、入力ミス、他のデータが混入したケース、データの桁をまちがえたケースなどがあります。
それを正しいデータとして統計処置するとまったくまちがった結果になります。
明らかにミスの場合は除外しますが、異常値かどうかを判断するにはむずかしいケースに出会います。
そのときは、二つの方法が用意されています。
ひとつは統計的に判断する方法です。もうひとつは、並べた数値の上部5%と下部5%のデータをカットしてしまう方法です。
これはトリム平均といわれています。
データを処理する手順を知る 関連ページ
- 日常生活における統計的思考
- 経験の理解
- 統計とは何だろう
- 記述統計と推測統計
- 標本の収集(サンプリング)
- 収集された標本の記述
- 統計的変量
- 統計的変量2
- 誤差・精度・測定値
- データのまとめ方
- 時系列
- 中央値
- 平均値
- ばらつき
- 分布の形状
- 歪み
- a
- a
- a
- a
- a
- a
- a
- a
- 統計は「どんな人」でも使える
- 「どんなとき」に使うかを理解する
- 統計で会社や製品への信頼感が増す
- 「どんなメリット」があるかを押さえる
- 統計は万能ではなく、限界もある
- データ収集にはいろいろな手段がある
- 母集団と標本を理解する
- データは2種類に分類できる
- データの形式で手法にちがいがある
- 見やすい階級をつけて集計する
- グラフをつくりその特性を読み取る
- ソルバーの威力
- 相乗平均
- ビッグデータ
- オープンデータ
- データマイニング