医療統計学:ばらつき

統計学セミナー

医療統計学:ばらつき

 

                    医療統計学、医療経済学、数学のつぼをたとえ話でわかりやすく解説

 

                    運営者の20年以上にわたる医療統計学のノウハウを満載

 

ばらつき

 

たとえば、もう一度分布を見てもらいたいのですが、それらの観測値がレンジ全体にわたりかなり均一に広がっているのか、あるいはいずれかの点のまわりに集中しがちなのかどうかどちらでしょうか(この問題に対しても30秒以上時間をかけないでください)。

 

まず一目瞭然というわけにはいきません。

 

この分布の全体的傾向を把握するには、それを図示した方がいいわけです。

 

たとえば下の図にあるような点図を描くと、脈拍数がレンジの中央に集まる傾向にあることがわかります。

 

たとえば、77?82間の脈拍数には、それ以上やそれ以下の脈拍数よりも数多くの学生が記録されています。

 

図のように並び変えたものを頻度分布と呼びます。それは分布の各値がどれだけの頻度で観測されたかを示すものです。

 

たとえば、1分当たり90あるいは69という脈拍数は何回記録されているでしょうか。

 

脈拍数90は2例記録されており(頻度=2)、しかるに69の脈拍数は全く記録されていません(頻度=0)。

 

点図で示された頻度分布を用いることにより、任意の脈拍数の頻度を他のものと比べることができます。このとき、最も頻繁に観測された分布の値をその分布のモードと呼びます。それは最も流行的な、あるいは人気のある値ということです。男の靴のモード、いいかえれば最頻値は8というサイズです。つまり、それは靴屋に最もたくさん売られているサイズでもあります。

 

モードは記録された値を代表するもう一つの尺度であり、第三の平均ともいえます。

 

図の分布においては、他の値より頻度の高い観測値は一つではありません。二つの値(80と81)が共に最も人気がある場合があります。このような場合、その分布には2つのモードがあることになります。

 

これらは互いに近い値をとっているので、その分布の概形を図示する場合には、比較的便利です。

 

ただしモードは、標本が量的変数の場合よりは、むしろ質的変数の場合の記述に役立つことが多いです。

 

たとえば、大学の先生を調べたところ、離婚経験者や妻に先立たれた人よりも、現在結婚している人が多いことがわかったとします。

 

その場合、「現在結婚している」が最頻カテゴリーとなります。

 

ただし、質的変数では平均値や中央値を計算することはできません。

 

さて、脈拍数の例に戻ることにしましょう。以上のほかに分布のもつ傾向を表現するには何がなしうるでしょうか。

 

一つは、観測値をグループ分けすることです。

 

例えば、60以上65未満の観測値は何個あるか、65以上70未満の観測値は何個か、そして70以上75未満は・・・・といったふうに考えることができます。このようにすれば以下のような表が得られます。

 

このように並べられたものを「グループ分けされた」頻度分布と呼びます。こうすることによって、全体的傾向がさらにはっきり現れます。この場合は、観測値は中央に固まっています。しかしながら、このような分布は、個々の観測値に関する情報を失っています。例えば、記録値の中で最も速い脈拍数が、1分当たり95なのか96なのか、あるいは97か98か99か、いずれの可能性も等しく考えられます。全体的な傾向をはっきりさせるために、詳細が犠牲になったわけです。

 

ヒストグラム(棒グラフ)を用いれば、グループ分けされた頻度分布における傾向をさらにはっきりと表現することができます。

 

これは長方形を用いた図で、各長方形の面積が、その階級、あるいはグループにおける頻度に比例しています。図のヒストグラムでは、1分当たり70-74のグループに90-94の階級の2倍の個体が属しており、よって長方形も2倍の大きさとなっています(ただし、横軸にはその階級の中央値にあたる脈拍数が記録されています)。さらに、そのヒストグラムによって囲まれた全面積は観測値の数(50)に対応しています。たとえば、25人の学生たちに対して、同様なヒストグラムをこの尺度で描いたとすれば、その面積はこのグラフの半分となります。

 

さて、このヒストグラムにおける8つの階級(60-64, 65-69, /・・・・)のうち、いずれが最頻階級でしょうか。

 

最頻階級は、最大の頻度を持っているものです。したがってこの場合、80-84が最頻階級となります。

 

これまでのところを繰り返すと、標本として結果をまとめる場合、どのような点に注意すべきかをもう一度見てみましょう。「生のデータ」つまり手を加えていない数値の集合は、全体的に把握しにくいものです。まずなすべきことは、それらを大きさの順に並べ変えることです。そのとき、それらをグループ分けしてみると、分布における何らかの傾向が明らかになることもあります。また、図を描くことにより、単に数字だけを見るよりも分布の形状について、よりはっきりしたイメージが描けます。

 

また、分布の重要な特性を数量化する数字(平均やレンジのように)を考えました。実際のところ、分布を統計的に記述するには、あるいはそれを用いて推測や予測を行うには、このような数字が必要不可欠です。それらのうちで最も重要なものを2つをあげれば、中心化の傾向の尺度(あるいは平均)と、変動性の尺度(あるいはばらつき)です。もう少し詳しく見てみましょう。

 

中心化の傾向

 

中心化の傾向というのは、観測値がレンジ全体、あるいは各カテゴリー間に均一にちらばっているのではなく、むしろある特別の値のまわりに集中する(あるいは特別なカテゴリーに何度も現れる)傾向のことです。

 

すでに、こういった傾向の尺度として3つをあげました。それらはモード、メディアン、平均という3つの尺度です。そのいずれを用いるのがよいかは、変量のタイプにも依存します。

 

例えば、表のようなタイプのデータに関しては、いずれの「中心化の傾向の尺度あるいは平均」を用いればよいでしょうか。

 

このような質的データに対して用いられる中心化の傾向、あるいは平均はモードです。そしてこの場合、自転車が最頻出カテゴリーとなります。

 

この場合、交通手段あたりの平均学生数を求めたとしても(50を6で割ることにより)メディアンを求めようとしても、何の意味もないことです。

 

質的データの場合には、確かにモードが最もよく使われるが、量的変量の場合にはそうではありません。

 

量的変量では、算術平均が平均として最もよく使われ、ときにはメディアンも使われます。

 

中心化の傾向の尺度として、算術平均にはいくつかの長所があります。

 

その主たるものは、標本ごとにかなり安定しているということです。

 

すなわち、同一の母集団から数多くの標本を取った場合に、それらの平均は、メディアンやモードほどは変化しないということです。

 

それゆえ、標本の算術平均(標本平均)は、母集団の中心化の傾向を推定する際には、最も信用のおけるものといえます。

 

しかしながら、中央値の大きさのみに注目し、平均のかわりにメディアンを使った方が良い場合があります。

 

例えば、次の2つの所得分布を見てもらいます。それぞれ5人からなる別個のグループを表すものです。

 

この2つのグループにおいては、メディアン所得は等しく、4,200(千円)です。しかし、グループXの平均所得は4,800(千円)、グループYの平均所得は8,220(千円)です。

 

グループXの代表値としては平均とメディアンのどちらでも構わない。それではグループYの所得の代表値としては、平均とメディアンのどちらが適しているでしょうか。

 

グループYにおいては、メディアンの方が所得全体をよりよく代表していると考えられます。平均だと1個の異常な値のためにかなり押し上げられていますが、メディアンはその影響を受けていません。

 

それゆえ、いくつかの極端な(大きくとも小さくとも)観測値があるような分布においては、メディアンの方が好ましいといえます。

 

こういった極端な観測値は異常値と呼ばれます。異常値のために平均は大きく歪められ、分布の中心からはるか遠くに引っ張られるわけです。

 

また、分布におけるいくつかの値の大きさがはっきりとわかっていないような場合にも、メディアンを用いなければなりません。

 

たとえば、5人のバスの乗客の年齢が以下のような分布とします。

 

12歳以下、22、48、54、65歳以上

 

この場合は平均年齢を計算することはできません。最も若い人と最も年寄りの人のそれぞれに恣意的に年齢を振り当てない限りは。しかし、メディアンは明らかに48歳です。乗客の半分がそれより年上で、半分が年下といえるからです。

 

以上、中心化の傾向(平均)は分布の中心を表すために通常用いられる量的変量を取り扱う際に、次に必要になるものは、この中心からどの程度広がっているかの尺度です。その値がより大きいほど、観測値はばらついているといえよう。そこで、私たちは「ばらつき」(あるいは変動性)の尺度を捜すことになります。

 

ばらつきの尺度

 

ばらつき具合を図示するには下図の2つの点図を比較してみましょう。このうち上図に関しては、すでにお見せしております。

 

 

2つの分布について、最も顕著な相違は何でしょうか? 皆さんはその違いを数字(読者がこれまでに知っている統計量)によって表すことができるでしょうか。

 

 

最も顕著な相違は、Bの観測値はAのものに比べて、はるかにばらつきが小さいということです。二つの分布におけるばらつき具合を数量化するには、そのレンジを比較するのが最も簡単な方法です。

 

Aにおいては、
レンジ=96?62=34/分

 

Bにおいては、
レンジ=88?70=18/分

 

となります。
明らかに標本Bの方がAよりもはるかに変動が小さいです。
さて、レンジは手短なばらつきの尺度です。その最大の長所は計算しやすく、一目見ただけでも簡単に求められるという点にあります。
しかし残念ながら、レンジは通常ばらつきの尺度として必ずしも信頼がおけません。というのは、レンジはそれがたった2つの値、すなわち二つの最も極端な値にのみ依存しているからです。
これらはもしかすると異常値であり、標本の中の他の値とはまったく異質なものかもしれない。
このことについては、既にグループYの所得分布のところで触れてます。

 

これを点図で見てみましょう。図に20人の学生からなる二つのグループの、テストの点数があります。

 

さて、図の二つの分布では、どちらがよりばらついているといえるでしょうか。グループXでしょうかグループYでしょうか。そのとき、よりばらつきの大きいグループが、そのレンジもまた大きくなっているでしょうか。

 

全体を見れば、グループXの分布の方が、よりばらついていることはまず間違いありません。グループYでは、二つの極端な値を除けば、10, 11, 12, 13というたった4個の値だけ(それらはすべてがくっついている)が観測されている。それにもかかわらず、Yにおいては、たった2つの異常値の影響を受け、そのレンジはXよりも大きなものとなっている。
より公平なばらつきの尺度を得る一つの方法は、異常値の影響を避け、分布の中心のあたりに、ある種のミニレンジを取ることです。このレンジは分布の四分位点と呼ばれるものにより作られます。
ちょうどメディアンがその観測値を二つに分ける値であったように、四分位点とはその観測値を四つの等しい部分に分ける値です。

 

図が示すように四分位点はQ1, Q2, Q3と三つあります。第二四分位点はメディアンと同じ値です。
上で述べたミニレンジとは、内側四分位レンジと呼ばれます。それはQ1とQ3の間の距離のことです。
それでは、これを前述のグループXとグループYの二つの分布に適用してみましょう。
各グループには20個の観測値がありますので、下から5個の値と上から5個の値を切り離す値が必要です。かくしてQ1は5番目と6番目の観測値の真ん中の値となり、Q3は15番目と16番目の真ん中の値となります。
分布Xでは、5番目の値は8で、6番目の値は9です。よって、Q1は8.5となります。
同様に、15番目の値は14で、16番目の値は15です。
よって、Q3は14.5となります。
それゆえ、内側四分位レンジ=14.5-8.5=6点 と計算されます。
さて分布Yの内側四分位レンジはいくつでしょうか。

 

分布Yでは、5番目の値は10で6番目の値は11です。よって、Q1は10.5となります。また、15番目は値は12で16番目が13のとき、Q3は12.5となります。その結果、

 

内側四分位レンジ=12.5-10.5=2点となります。

 

皆さんは、これらの二つの分布においては、内側四分位レンジがレンジに比べて、より適切なばらつきの尺度であることに異議はないと思います。

 

たしかに内側四分位レンジは、ばらつきの尺度としてよく使われ、特にメディアンとともに用いられます。しかし、それ以上によく用いられるばらつきの尺度があります。次にそれを紹介します。それは標準偏差です。
平均と同様に、標準偏差はすべての観測値を用いて計算されます。

 

さて、標準偏差とはどのようなものでしょうか。ある分布において、ばらつきが全くないならば、すべての観測値が等しい値をとります。このとき、平均もまたこの繰り返し観測される値と一致します。すなわち、平均と異なる、あるいは平均から離れている観測値はありません。しかし、もしばらつきがあるならば、観測値は平均から大小さまざまの乖離(偏差)を示します
分布の標準偏差を用いることは、すべての観測値の平均からの乖離の一種の算術平均値を示すことです。ばらつきが大きくなればなるほど、乖離は大きくなり、その結果標準(平均)偏差も大きくなります。

 

それでは、以上の二組の集合のうち、どちらの標準偏差がより大きいと予想されるでしょうか。

 

 

(1)6, 24, 37, 49, 64(平均=36)
(2)111, 114, 117, 118, 120(平均=116)

 

 

における値の方が、(2)における値よりばらついている(すなわち、それらは平均から離れている)。それゆえ、おそらくその標準偏差も大きいと思われます。それを確認してみましょう。(2)においてそれぞれの値の平均116との差をとれば、以下表のようになります。

 

 

ここで上の偏差の平均(算術平均)を取っても意味がありません。なぜならば正の値が負の値とちょうど打ち消され、常に合計がゼロになることがわかるからです。そこで少し工夫し、各偏差を「二乗」し負の符号をなくするわけです。これらの偏差の二乗の平均は分散と呼ばれるものです
すなわち、
分散=(25+4+1+4+16)/5=50/5=10
となります。分散はそれ自体、有用な尺度ではありますが(このことはこの後にも触れます)同時に、日常の実用的な目的のためには、ある種の欠点を持っています。つまり、その分布のもとの値(それゆえ、平均でもある)が、たとえば「1分当たりの脈拍数」という単位で測られているとすれば、そのとき分散の単位は「1分当たりの脈拍数の二乗」となってしまいます。これはいったい何を意味するのかさっぱり見当がつきません。そこで、ばらつきの尺度の単位をもとの観測値の単位と同じに(そして中心化の傾向の尺度も同じ単位に)もどすために、分散の平方根をとります。これが、いわゆる標準偏差と呼ばれるものです。つまり、
分布(b)の標準偏差=√10=3.16

 

同じような計算を上の分布(1)に対して行うと以下のようになります。

 

皆さんの予想どおり、分布(1)の標準偏差は分布(2)の標準偏差よりもかなり大きいことがわかります。
これは分布(1)がはるかにばらついているからです。
さて、図に示した二つの分布をもう一度見てみましょう。
どちらの標準偏差が大きいでしょうか。

 

図の二つの分布では、XがYより大きな標準偏差を持っています。
実際Xの標準偏差は4.3点で、Yのそれは3.3点です。
今度は、その前の図に示された二つの分布(アとい)を振り返って見てみます。
以下のリストにある数字の組み合わせのうちの一つが、その二つの分布の標準偏差を表しています。さて皆さんは (a) (b) (c) のいずれの組み合わせがそうだと考えますか。
さらに、その2つの標準偏差のうち、どちらがどちらの分布に対応しているでしょうか。
1分間当たり4.6と7.6
1分間当たり7.6と37
1分間当たり19と37

 

Aの標準偏差は7.6/分、Bの標準偏差は4.6/分と考えられます。一つの組み合わせの中では、大きい方の標準偏差がよりばらつきの大きい分布のものであることは簡単にわかったと思います。
しかし、いずれが正しい組み合わせであるかを決めるのは難しかったのではないでしょうか。たとえば、(b)において、7.6がばらつきの小さい方の分布の標準偏差として正しい値であったとすれば、37はもう一つの分布のレンジすら超えてしまいます。そう考えれば、(b)ではないということができると思う。同様に、(c)において与えられる数字は、共に分布のレンジを超えています。

 

実際、標準偏差がレンジの大きさまで近づくことは決してありません。たとえば、1, 2, 3, 997, 998, 1000といったような非常にばらついた値からなる集合ですら、レンジは999であり、標準偏差は約500にすぎません。だいたい10個くらいの標本の場合には、標準偏差はレンジの1/3くらいであると考えられます。標本数が100の場合には、それはだいたい1/5くらいにまで下がります。これらのおおまかな値を覚えておいて、標準偏差の値を想像するのに役立つでしょう。
これまでのことを要約しますと、標本の個々の値が与えられるようなデータは、いかにまとめればよいのでしょうか。これらは「生」のままで表すよりは、むしろ次のようにした方がいいです。
データの全体的な傾向を表すような表にまとめる。
そこに含まれている数量を図を用いて表現する。
中心化の傾向を示すような適当な指標をさがす(たとえばモード、メディアン、平均)。また、量的変量の場合にはそのばらつきを示す何らかの指標もさがす(たとえばレンジ、内側四分位レンジ、標準偏差)。
そのときに用いられる図や表や数字の種類は、そのデータのタイプ、すなわち質的変量か、量的変量かに大きく依存しています。こういった考え方に基づき、さらに議論を進めましょう。

 

もっと勉強したい方は⇒統計学入門セミナー

 

統計学セミナー

医療統計学は、自己学習ではどうしても時間がかかってしまい効率悪くなりがちです。本セミナー受講により、医療統計学の理論だけでなく実際の作業をどう進めるかなど、具体的な方法を伝授します。これにより、医療統計学の理解が倍増すること間違いなし!この機会にぜひご活用ください。



HOME プロフィール 統計セミナー 出張相談サービス お問い合わせ