医療統計学:標本の収集(サンプリング)
医療統計学、医療経済学、数学のつぼをたとえ話でわかりやすく解説
運営者の20年以上にわたる医療統計学のノウハウを満載
標本の収集(サンプリング)
ここで論ずる問題は、いわゆるサンプリングのパラドックスと呼ばれるものです。
標本はそれが母集団を代表していないかぎり、誤った理解を導くもととなります。
しかし、その標本をとる前に、その母集団について何を知るべきかを知らないかぎり、どうしてその標本が母集団を代表しているということができるであろうか、ということは、標本を取る必要がないことになります。
このパラドックスを完全に解決することはできません。ある種の不確実性は残らざるを得ません。
それにもかかわらず、統計的な方法を用いることによって、できるかぎり代表的であると考えられる標本を収集することが可能となります。
それによって、最大限の注意を払うことにより、過度の一般化を避けることが可能となるわけです。
統計的調査においては、「標本がそれ自体を選ぶ」こともあります。
たとえば、ある開業医が彼の治療を受けにやってきた患者たちに見られる様々な病気の頻度に基づき何らかの研究を行うことを考えたとしましょう。
彼の標本中の個体はそれ自身を選んでおり、より広い母集団へと一般化するには十分注意を払う必要があります。
その開業医は、標本中に見られるさまざまな病気が、一般の人々の典型であると思ってはいけません。
その地方に住む他の開業医たちの患者も同様であると推測するならまだしも、異なる地域における医者たちが患者を同様の割合で治療していると考えるとすれば、それは誤りです。
要するに、彼は次のように自問しなければなりません。
「私は、標本として興味あるデータをもっている。しかし、これを一般化することが可能な母集団は存在するであろうか」
とはいえ、研究者があらかじめ心の中に母集団を描きながら調査することもあります。
その場合、彼はその母集団を代表していると信じつつ標本を選びます。
標本が母集団を本当に代表しているといえるためには、各個体はそこからランダム(無作為)に選ばれなければなりません。
すなわち、母集団の各個体には、標本として選ばれる機会が同等に与えられなければなりません。
このことは、決して簡単なことではありません。
たとえば、あなたが人混みの中へ行き、通行人の“ランダム”な標本にインタビューしようと試みても、決してうまくはいきません。
なぜでしょうか。
それは、あなたが近づきやすそうな人に近づき、どこかへ大急ぎで行こうとしている人は避けているからです。
インタビューできた人々は、無愛想であったり、機嫌が悪そうに見えたり、急いでいる人々とはその政治的な意見も異なっているかもしれません。
つまり、あなたは標本に不均衡、あるいは偏りを導入したことになります。そのような標本は決してランダムとはいえません。
偏りを避けるためには、機械的な方法によってランダム標本を選ぶことが望ましいといえます。
たとえば、その母集団の各個体に数字をふりあて、乱数表と呼ばれる数表を見るわけです。
この表からは、欲しいだけの数をランダムに選ぶことができます。たとえば、10個の標本を欲しいとすれば、04, 34, 81, 85, 94, 45, 19, 38, 73, 46というように。
そこで、その母集団からそれらの数字のついて個体を選び出せばよいわけです。
この方法は、宝くじつき郵便貯金の当選者を選ぶときに、郵便局のコンピューターによって実際に行われています。
もし読者の手もとにコンピューター乱数表もないとすれば、仕方がないのでくじ引きの要領で行うことになります。
読者の母集団が十分小さい場合には、箱の中に各々の個体の名前か番号をつけたくじを入れておき、それらを十分よく振って、目隠しなどの方法によりランダムにそのくじを引き、それによって標本を作ればよいわけです。
しかしながら、先ほどの道路上でのインタビューにおいてランダム標本を得ることは、さらにむずかしいわけです。
結局、誰が現れるかがわからず、あらかじめその人たちに番号を与えておくことができないわけです。
さて、あなたはこのケースにおいて標本を機械的に抽出する方法を何か考えつきますか。
たとえば、一つの方法は、街角の近くに立ち、前のインタビューが終わった後、その角をまわる5番目の人に近寄って話しかけることにすればよいわけです。
もしくは、1分間たった後、その角を曲がった最初の人にインタビューをすることにすればよいわけです。
どちらにしろ、目的はその母集団のすべての個体(その日のその時間にその道路にいた人々)に同様に選ばれるチャンスを与えることにあります。
しかしながら、ランダムな方法を用いたとしてもなお、標本に偏りが残っているということは十分考えられます。
それは、偶然の結果、その標本が読者が一般化したいと思っている母集団の代表とはなっていない場合です。
たとえば、ある大学の食堂で出されるランチメニューについて、学生たちがどのように感じているかを調査したいとしましょう。
その大学には1,000人の学生がいます(男子学生が600人、女子学生が400人)。
いま、100人の標本を取ることにして、それらを乱数表を用いて大学の学生名簿から選んだとしましょう。
さてこのとき、この標本がすべて男性、あるいはすべてが女性であるということはありうるでしょうか。
イエス。もちろんその標本がすべて男性であったり、すべて女性であったりということはありえます。
結局、600人の男性と400人の女性がいて、あなたはそのうちのたった100人の学生を選んでいるにすぎません。
同様に、その標本が新入生ばかりであるということもありえます。
もちろん、このような標本はめったにないでしょう。しかし、標本がある程度は偏っているということはほぼ常に起こっています。
すなわち100人の学生たちの標本において、ちょうど60人が男性であり、40人が女性であるということは考えられないですし、また、新入生、2年生、3年生の学生数の比どおりにちょうど標本がとられているとも考えられません。
けれども、このことが一概に問題であるとはかぎらないのです。
男子学生と女子学生の食べ物の嗜好の相違が、青い瞳の学生と緑の瞳の学生の相違よりも大きいという根拠は何もありません。
しかし、もし異なるカテゴリーに属する学生たちの意見に系統だった相違があるとすれば、その標本は偏りがあることになります。
そして、そこでの意見をまとめて母集団の意見として一般化することはできません。
その場合には、たとえば、標本中の女子学生から母集団の女子学生へ、男子学生から男子学生へといった具合に一般化しなければなりません。
このような場合、いわゆる層別ランダム(無作為)標本と呼ばれているものを使う方が望ましいわけです。
すなわち、母集団の中のグループが異なれば(たとえば、性別や年齢層や所得水準の相違による)、われわれにとって関心のある特性も同時に異なる可能性がありうるわけです。
それゆえ、あらかじめ標本の中に必要な男性と女性、大人と子供、富める者と貧しい者の数を定めておく。そうした後に、その母集団の中のそれぞれのグループ(あるいは層)からランダムに選ぶわけです。
さて、最後に標本の中に偏りが生ずる劇的ともいえる例をあげます。
この標本は、以前にカナダの病院で、医者たちによって集められたものです。
それは、何百人かの患者からなり、彼らには新たに使われるようになったジフテリアのワクチンが試されました。
同時に患者の「対照群」も治療を受け、彼らはワクチンではなく、それまでに使われていたごく普通の方法で治療されました。
幾年にもわたり、その試みを続けたところ、ワクチンを投与された患者たちはその16パーセントが死亡しました。
しかるに通常の方法で治療された患者たちはわずか8パーセントが死亡したにすぎませんでした。
これを一般化すれば「患者にワクチンを与えると、かえって生き延びる可能性が低くなる」となるでしょう。
しかし、これと同じジフテリアのワクチンが、今日ではごくあたりまえの手段として用いられています。
このような結果が得られたのはいったいなぜでしょう。その答えは標本の中に導入された偏りにあります。その偏りとは一体何でしょう。
ワクチンを与えられた標本も対照群も共に、今日そのワクチンが用いられている患者の母集団を代表するものではなかったということです。
その医師たちはおそらく専門的立場から、重体の患者にのみそのワクチンを投与すべきであると考えたのでしょう。
一方、比較的軽い患者に対しては、それまでの治療法がとられたと思われます。
かくして二つの標本はそれぞれ異なる方向に偏っており、共にすべての患者の母集団を真に代表するものではなかったということです。
もっと勉強したい方は⇒統計学入門セミナー