▼▼▼▼▼▼▼▼ ▼▼▼▼▼▼▼▼
お問合せはこちら セミナー詳細こちら
医療統計学:標本分散と不偏分散
医療統計学、医療経済学、数学のつぼをたとえ話でわかりやすく解説
運営者の20年以上にわたる医療統計学のノウハウを満載
標本分散と不偏分散
データから分散を求めるのに、平均からの偏差平方和をデータ数で割る標本分散と、データ数より1小さい値で割る不偏分散とがありますが、どちらを使えばよいのでしょうか?
不偏性とは、その統計量を無作為抽出して戻しまた無作為抽出するという作業を無限回繰り返して得たときに、統計量の平均(すなわち期待値)をとると、それが母集団のパラメータと一致するということです。
データを前にして分析者が関心をもっているのはデータそのものよりも、データが無作為に抽出された(と考える)母集団の性質であることが多いと思います。
データは母集団の性質を推し量る情報にすぎません。本当に欲しい情報は一部のデータから得られる情報ではなく母集団の情報です。
たとえば、日本全国民の平均年齢を1億4000万人の平均として算出するのは難しいので、一部の数百人の標本から得られた平均年齢で推定するわけです。数百人の標本に興味があるわけではないのです。
したがって、不偏性は、統計量の望ましい性質の一つといえます。
不偏性という観点では標本分散よりも不偏分散のほうが好ましいといえます。
ただし、標本の大きさ(n)が大きくなるにつれて、(n−1)/nは1に近づきますから2つの統計量の差は次第に小さくなります。
ところで、データ解析を行うのは、常に標本に対して行うとは限りません。
ある有限母集団のすべてに対して観測値が得られた場合は、標本から母集団を推定する必要はありません。
あるいは、特定のグループの構成メンバーそのものに関心がある場合はその集団から直接統計量を計算すればよいわけです。
これらの場合、不偏分散を計算する必要はないことになります。
データが標本なのか、母集団なのかを、実際には明確でない場合があります。
厳密に標本抽出をするよりは、得られやすい、あるいは関心をもっている集団からデータを取得するということはよくあることです。
母集団そのものが分析者の中で明確でないときは、標本分散か不偏分散かという議論より先に、何を分析するのかということをまず明らかにする必要があるでしょう。
もっと勉強したい方は⇒統計学入門セミナー