▼▼▼▼▼▼▼▼ ▼▼▼▼▼▼▼▼
お問合せはこちら セミナー詳細こちら
医療統計学:平均偏差と標準偏差
医療統計学、医療経済学、数学のつぼをたとえ話でわかりやすく解説
運営者の20年以上にわたる医療統計学のノウハウを満載
平均偏差と標準偏差
散布度の測度として、平均偏差のほうが意味がわかりやすいのですが、なぜ、標準偏差のほうがよく使われるのでしょうか?
たとえば「6,7,7,7,8」と「3,5,7,8,12」という2つのデータを比較してみましょう。
これら2つのデータの平均値は、いずれも7になります。
しかし、データの分布が異なっているのは明らかです。
つまり、前者のデータの場合、平均値から遠く離れた(偏差の大きい)測定値があまりありません。
これに対し後者のデータの場合、平均値から遠く離れた(偏差の大きい)測定値がかなり混じっています。
このような測定値のちらばり方の大きさが散布度であり、標準偏差も平均偏差も、このデータの散布度を記述する統計的測度なのです。
標準偏差とは
標準偏差を算出する原理は次の通りです。
まず、各測定値の平均値からの偏差を求めます。すなわち上の2つのデータの場合、
「−1、0、0、0、+1」と、「−4、−2、0、+1、+5」という偏差が得られます。
これで、2つのデータの散布度の違いは明らかでしょう。
次に散布度を数値で記述するために、偏差の総和を算出してみましょう。
すると、偏差がプラスになる測定値とマイナスになる測定値が相殺しあって、平均値からの偏差の総和はいずれの場合の0となります。
つまり、両者とも0となるので散布度の違いを区別することはできません。
そこで、プラスマイナスの符号を消すために、偏差の2乗の総和を算出してみましょう。
そうすると、2つのデータの偏差の和の2乗は、前者が2、後者が46となります。
この偏差の2乗和を用いれば、散布度の測度ができそうです。
しかし、偏差の2乗和は、散布度の測度としてはまだ不完全です。
なぜなら、測定値の数によって偏差の2乗和の意味が異なるからです(測定値の数が多くなれば、散布度が小さくても偏差の2乗和は大きくなります)。
したがって、測定値の数に影響されないようにするために、測定値の数で割って平均します。
すなわち、偏差の2乗和の平均値を散布度の測度にするのです。
この「平均値からの偏差の2乗和の平均」が、散布度の測度としてしばしば用いられる分散にほかなりません。
しかし、分散と平均値を用いて度数分布の形状を記述しようとすると、次のような問題が生じます。すなわち、分散は偏差のプラス・マイナスの符号を消すために2乗するので、平均値と分散の単位がそろわないという欠点があります。
そこで、分散の正の平方根である標準偏差を求め、これを散布度の測度とするわけです。
平均偏差とは
ところで、偏差のプラスマイナスの符号を消すために、絶対値を求めるという方法も考えられます。
つまり、「平均値からの偏差の絶対値の平均」を求め、これを散布度の測度とするのです。
実はこれが平均偏差とよばれる散布度の測度の一種なのです。
この平均偏差は、標準偏差のように2乗して開平するという面倒な処理を行わないので、散布度の測度としての意味はわかりやすいといえましょう。
しかし、平均値とセットにして度数分布の形状を記述するための測度としては、標準偏差のほうが平均偏差よりも多く用いられます。
それは、標準偏差のほうが数学的処理が便利であるのに加えて、平均値が「偏差の絶対値の総和」ではなく「偏差の2乗和」を最小にする定数だからです(偏差の絶対値の総和を最小にする定数は中央値)。
もっと勉強したい方は⇒統計学入門セミナー