医療統計学的論文の読み方：統計的検定のロジック

医療統計学は超簡単＞医療統計学的研究論文の読み方＞医療統計学的論文の読み方：統計的検定のロジック

▼▼▼▼▼▼▼▼ ▼▼▼▼▼▼▼▼
お問合せはこちらセミナー詳細こちら

医療統計学的論文の読み方：統計的検定のロジック

医療統計学、医療経済学、数学のつぼをたとえ話でわかりやすく解説

運営者の20年以上にわたる医療統計学のノウハウを満載

医療統計学的論文の読み方：統計的検定のロジック

論文で示された結果を解釈するには，批判的吟味を行なう能力をフルに活用しなければなりません。

一つひとつの図表を読む際に，「この結果はいったい何を意味するのか」と考えるべきです。

「注意！」が合言葉です。値が大きく.刺激的で，予期せぬ結果というのは極めてまれで，誤った研究や誤解を招く知見のほうがずっと多いのです。

結果を検討する際には，有意性の吟味や，分析中の落とし穴のチェックを注意深く行なわなければなりません。

かつては，主たる知見を記述し説明した表とグラフを示すだけの論文もありました。現在では，研究論文が，統計的検定によって結果の統計的有意性を評価するのは当然のこととなっています。

統計的検定が必要とされるのは，偶然の作用（play of chance)がどこにでもあるからです。

研究のために患者のグループを選ぶときや測定をするときには，偶然が作用して結果に影響を与える可能性がつねにあります。

偶然の作用の影響は.サンプルが小さいときに最も顕著です。

10人の新生児をサンプルとして選んだとしましょう。

およそ半分は女の子であろうと期侍はするものの，女の子が7人で，男の子が3人だけであったとしても誰も驚かないでしょう。

もう一度，サンプルを選んだとき，女の子が4人で，男の子が6人であってもやはり誰も驚かないでしょう。

サンプルが大きければ男の子と女の子がおよそ等しい人数となることが期待されますが、小さなサンプルでは偶然の作用のせいで男女比が1対1に分かれることはめったにありません。

偶然の作用の影響は，医学研究ではどこにでも見られます。

臨床試験において2つの治療法を比較するとしましょう。患者をランダムに2つのグループに割り当てます。

ランダム化によって，2つのグループ間の系統的な差（systematic differences）は防げますが，偶然によって生じる差は防げません。

たとえば，片方の治療グループに重病の患者がわずかに多く割り当てられてしまうと，実際には2つの治療法の間には差がないにもかかわらず、一見.差があるように見えてしまうことがあります。

実際，臨床試験において2つのグループが全く同じであることはほとんどありえず，グループ間には，偶然による小さな差があるのが普通です。

しかし，グループ間に，偶然による非常に大きな差があることはめったにありません。

偶然の作用が重要であるのは、それが，観察された研究結果に与える影響の大きさによります。

興味深い結果のように見えても、統計的なまぐれあたりであったということが最終的に証明されることも，ときにはあります。

統計手法を用いることにより，観察された結果が偶然の作用によるものか否かを，幸運にも推定することができます。

この方法の中心には，確率の概念があります。

いかさまでない6面のサイコロを振って6の目の出る確率は6分の1です。

（イギリスの）宝くじで当たりくじが出る確率は140万分の1です。

確率は，ある事象がどのくらい生じそうかを簡潔に記す方法です。

確率は小数で表わされることが多いです。

たとえば6分の1は0.167と表わされます。確率の解釈は極めて簡単です。ある事象が非常に小さな確率をもつとき，たとえば0.0001のように非常に小さいとき，その事象が生じることはほとんどありません。

確率が大きいとき，たとえば0.9のとき，事象は非常に生じやすいです。

確率は0.0と1.0の間で変動し，0.0は事象が決して生じないことを意味し，1.0は確実に生じることを意味します。

人間は皆いつか死ぬのだから，ある健康な成人がいずれ死ぬ確率は1.0です。

一方，その成人が明日死ぬ確率は10万分の1つまり0.00001より小さいのです。

バスに轢かれるといったありそうもない事象でも，たまたま生じるかもしれないので，確率は完全には0.0ではありません。

しかし，ありそうもない事象はめったに起きないので，確率は非常に小さいです。

確率は統計的検定の核にある概念です。

確率はしばしばp値と呼ばれますが，pはprobability (確率）の略です。

発生する機会が1000分の3という，かなりまれな事象の場合，確率はp=0.003と書くことができます。

この確率をpく0.01と書くこともあります。この「く」記号は「? より小さい」を意味します。

小数0.003は0.01より小さいですからp=0.003であれば0.01より小さくなります。

「く」記号は広く用いられていますが、pく0.01という表現はp=0.003 という表現よりも正確ではありません。

過去には，「く」記号を使用して，確率を特定の値にまとめて表現することが流行ったことがあります。

たとえば最も一般的だったのは，pく0.05，pく0.01、pく0.001といった表現の仕方です。しかし現在では，数字を概略値として表現するのは情報の無駄使いなので、正確なp値を示すことが好ましいとされています。

統計的検定では，奇妙にも思えるようなロジックを用います。

そのようなロジックを用いるのは、研究を難しく見せかけるためであると思われるかもしれませんが，そうではありません。

そのような考え方を用いるのが，唯一の妥当な方法だからです。

臨床試験で，優劣に差がある2つの治療法を比較する研究を，例にしてみましょう。

最初のステップは、治療法間で観察された差が偶然の作用の結果だけによること，すなわち治療法間に真の差がないという仮説を設定することです。

差がないという結果を望んでいるわけではありません。

新しい治療法が従来の治療法よりも優れていてほしいのは当然です。とはいえ，このロジックでは.このような展開になるのは致し方ないのです。

次のステップは，統計的検定を用いて，観察されたものと同程度の大きさの差が，偶然だけで生じるかどうかを計算することです。

検定は，結果として得られた差が，偶然の作用のために生じている確率. すなわち，p値を与えます。

この値が非常に小さい（たとえばpく0.001)ときには，結果は偶然の作用のせいで生じたのではないだろうと結論づけます。

したがって，この場合には.治療法間に差がないという仮説を棄却し、一方の治療法がもう一方の治療法よりも本当にに優れていると結論することができるのです（2つの治療法間には偶然による差以上の差はないとする仮説を，一般に帰無仮説と呼びます）。

p値は.観察された結果が偶然によるものか否かを判断するための，非常に便利な指針です。

p値が小さいということは，結果が偶然によるものではなさそうだということを示しています。

そこでp値がどれだけ小さければ，結果が偶然のせいではないと判断してよいのかを決めなければなりません。

ここで，恣意的ですが便利なルールがあります。p値が0.05より小さい（すなわちpく0.05）ときには結果を偶然のせいにしないというルールです。

p値がこれほど小さい場合，結果は統計的に有意であると言われます。

この恣意的なルール（pく0.05)は、完璧な保証ではありません。

何回も統計的検定を行なったとしましょう。有意性検定を20回行うたびに，平均して1回は，みせかけの有意な結果が得られると予測できます。

なぜなら，p=0.05とは，偶然がそのような結果を引き起こす確率が20回中1回あるということを意味しているからです。

つまり，2つの論理的な帰結が得られます。

①有意性検定を多数行なってしまうと，みせかけの有意な結果を得ることになります。

②p値が小さい（たとえばpく0.01やpく0.001）ほど，結果は偶然によるものではなかったという一層強い確信がもてます。

偶然の影響を査定するための.統計的検定以外の，もうひとつの方法が信頼区間です。

信頼区間は，統計的検定よりも，多くの情報を与えてくれます。

2つの抗高血圧薬の臨床試験で，一方の薬は平均して15mmHgも最小血圧を低下させたが，もう一方の薬は平均して5mmHgしか低下させなかったとしましょう。

平均で10mmHgという差は，印象的ではあるが，この差は偶然の影響によって生じたのかもしれません。

ここで重要なのは，2つの薬の効果の差の，真の値がゼロと同じくらい小さい（すなわち差がない）かどうかと問うことです。

この問いには95%信頼区間を用いて答えることができます。

信頼区間は95%の確信をもって，真の値がその内側にあると言える範囲を与えます。

抗高血圧薬の試験で95%信頼区間が3?17であったら，真の値は最小で3.最大で17であると言えます。

ゼロはこの区間の外側に位置するため，ゼロは真の値ではないだろうと結論づけることができます。

これは0.05より小さいp値を得ることと同等です。

すなわち結果が統計的に有意であるということです。

信頼区間の範囲がもっと広かったら、.たとえば-4?24だったら.解釈は異なります。

この範囲はゼロを含むのでゼロが真の値でありうるのです。

よって.この場合，2つの薬の効果に差があるというエビデンスはないという結論になります。

信頼区間は，研究方法が臨床試験であろうとコホート研究であろうと何であろうと，つねに同じように解釈されます。

つまり，信頼区間は，効果がない（たとえば2群間に差がない）という仮説を検定するために用いられます。

もし信頼区間の内側にゼロがあれば，効果はなかったと結論づけます。

もし信頼区間の範囲外にゼロがあれば，無効果という結論はありえなさそうなので除外します。

これは結果が統計的に有意であるということに等しいのです。

統計的検定よりも信頼区間が優れているのは、信頼区間は，結果が偶然の影響によるものかどうかを示すだけではなぐ偶然の作用を考慮したうえで、真の効果サイズ（効果値）のとりうる最小値と最大値を示してくれるからです。

統計学100の基礎統計学セミナー
 サイトマップ

もっと勉強したい方は⇒統計学入門セミナー