医療統計学をわかりやすく解説

統計学セミナー

医療統計学における測定値についての理解

 

                    医療統計学、医療経済学、数学のつぼをたとえ話でわかりやすく解説

 

                    運営者の20年以上にわたる医療統計学のノウハウを満載

 

医療統計学における測定値についての理解

 

             

 


医療統計学では、先の例に挙げた患者の血圧などの、いわゆる「測定値」を扱います。

 

したがって、

 

測定値に関する理解が必要不可欠です。

 

正規分布というのを聞いたことがあると思います。

 

正規分布を理解することは、測定値の本質を理解する上で大変重要です。

 

しかしこれをわかりやすく教えられる統計学の教師は皆無に近いという現実をご存知でしょうか。

 

皆さんも経験していると思いますが、多くの教師はいきなりこの式から説明しようとします。

 

             

 

これでは統計学が嫌いになって当然です。

 

大前提として、世の中の多くの人は数式が嫌いなのです。

 

しかし、言葉だけで物事の多寡を説明するには限界があります。

 

一番いいのは、数字を巧みに使って説明することです。

 

私たちは数字に基づいて自分の行動を決めることが多いです。例えば体温を測ったら37度だったから、今日は体調が万全でない、無理しないでおこうとか。

 

しかし、この37度といういわゆる「測定値」は正しいのでしょうか。

 

繰り返し測ってみれば分かるが、測定値というのは、「ばらつく」のです。

 

面倒くさい話ですが、私自身が自分の体温を精度の良い熱電対で11回実施したところ、以下のような値になりました。

 

精度の良い熱電対ですら、このくらいばらつくのです。

 

36.46〜36.48      36.478
36.48〜34.50      36.488      36.482
36.50〜36.52      36.519      36.508      36.501      36.510      36.503
36.52〜36.54      36.521      36.530
36.54〜36.56      36.554

 

ここで大事なのは、測定値というものはばらつきはするものの、ある特定の範囲にかたまりやすいということです。

 

上の例では、36.50〜36.52度の範囲にもっともデータが集まっています。

 

一般に測定値というのはこのような分布をするのです。

 

さて、これを90度左回転してみましょう。すると、山型の分布になり、真ん中が最大になります。

 

どっかで見た事ある形ではないでしょうか。

 

先の図に似ている、そう。これがまさに正規分布なのです。

 

体温に限った話ではありません。10円玉をたくさんかき集めて1枚1枚重さを測って並べてもこのような分布になります。

 

水道の蛇口からぽたりぽたりと垂れる水1滴1滴も、その重さをすべて測り図示すると正規分布になります。

 

特に理由はありません。地球が丸いのと同じで、そういうものなのです。

 

また上の体温の例に戻し、範囲の部分に着目しましょう。

 

36.46〜36.48
36.48〜34.50
36.50〜36.52
36.52〜36.54
36.54〜36.56

 

このように範囲設定しているのには大変重要な意味があります。これをもし、範囲設定ではなく定規を縦にしたように、スケールだけにしたらどうでしょうか。

 

35.0
35.5
36.0
36.5
37.0
37.5

 

ここで重要なことは、体温は連続変数であり、サイコロの1?6のような離散変数ではないということです。

 

どういうことかというと、実際の体温のデータが連続変数であるとは、つまりたとえば

 

36.5124356384627439364869752648104957628・・・・・・

 

という唯一無二の値であるということです。全く同じ値というのは絶対に存在しないのです。

 

サイコロの場合は同じ目が何度か出現することはありますが、体温の場合、同じ値は二度と出現しません。

 

したがって、

 

35.0
35.5
36.0
36.5
37.0
37.5

 

のような連続スケールにしたら、

 

36.5124356384627439364869752648104957628・・・・・・

 

というたった1つの値はもう1回とるということは絶対にあり得ない、言い換えれば、もう1回おなじ値をとる確率はゼロです。

 

つまり、すべてゼロなので、頻度ゼロの平坦な分布になり、決して山型の正規分布にはならないのです。

 

すべてゼロでは、データを正規分布の考え方に落とし込むことはできないのです。

 

したがって、山型の正規分布にするには、範囲設定が大変重要なのです。

 

そして上の例では、36.50〜36.52の範囲に最もデータが集まっています。

 

同じ広さのところにたくさん集まっていることを我々は「密度が高い」という言い方をします。

 

今まで理解不能であった確率密度、確率密度関数という言葉の意味はここから来ています。

 

上の例を統計学用語で書き直すとこのような表現になります。

 

体温を連続型の確率変数とする確率密度関数では、36.50〜36.52の範囲の確率密度が最大となります。

 

連続型確率変数を扱う場合には、確率がゼロにならないように確率変数に一定の幅をもたせ、その幅のなかにデータが入るようにします。

 

そのデータの量の多寡は確率密度という表現をします。

 

さて、例の難しい図の話に戻ります。

 

             

 

この図では、横軸xが確率変数、縦軸が確率密度、横に書いてあるわけのわからない数式が確率密度関数と呼ばれるものです。

 

先の話のように確率変数xに幅をもたせなければ、このような山型にはならないはず。こんな滑らかでなく、もっとギザギザの階段状の図になるべきではないか、という疑問が湧くはずです。

 

そこでトリッキーな話ですが、一旦Δxという幅をもたせ、ギザギザの山型の分布にしてから、このΔxをゼロにし滑らかにするという操作をします。

 

この操作がいわゆる微分です。

 

結果として、確率密度関数の形はギザギザの階段ではなく、滑らかな山型となります。

 

さあどうでしょう。ここまで説明して、ようやく正規分布とはどういうものかが理解できたのではないでしょうか。

 

改めて統計学の教科書の正規分布の章を読んでみたら、今ならばよく理解できるはずです。

 

そして、この考え方は測定値というものの本質部分なので、しっかりと理解してください。

 

もっと勉強したい方は⇒統計学入門セミナー

 

統計学セミナー

 

⇒    医療に対する理解

 


医療統計学は、自己学習ではどうしても時間がかかってしまい効率悪くなりがちです。本セミナー受講により、医療統計学の理論だけでなく実際の作業をどう進めるかなど、具体的な方法を伝授します。これにより、医療統計学の理解が倍増すること間違いなし!この機会にぜひご活用ください。



HOME プロフィール 統計セミナー 出張相談サービス お問い合わせ