医療統計学:統計的変量2

統計学セミナー

医療統計学:統計的変量2

 

                    医療統計学、医療経済学、数学のつぼをたとえ話でわかりやすく解説

 

                    運営者の20年以上にわたる医療統計学のノウハウを満載

 

統計的変量2

 

質的変量の場合と同様、量的変量も一種類ではありません。

 

そこで、使われる数のゼロ点がその特性のまったくないことを意味するかどうかによってそれらを区別します。

 

ほとんどの量的変量(たとえば、所得)は、このようなゼロ点を持っています。

 

ある人の所得が0円であるといえば、彼には何ら稼ぎがないことを意味します。

 

すなわち、彼は完全に収入がないことになります。

 

同様に、日に10,000円稼ぐ人は、日に5,000円稼ぐ人より2倍稼いでいるということがいえます。

 

しかし、このようなゼロである物体は熱がまったくないわけではありません。

 

その結果、温度が10度である物体は温度が5度である物体の2倍の熱さであるとはいえないわけです。

 

それは、5度だけ熱いということにすぎません。

 

知能指数や社会的経済的地位などのように社会科学において用いられる量的変数には、この種のものが多いのです。

 

また、量的変数は、それが離散的であるか、連続的であるかによっても分類することができます。

 

離散変量とは、その取りうる値が一つ一つはっきりと離れているものです。

 

昔からある例としては、家族の構成人数が考えられます。ある家族の子供の数は1, 2, 3といった数をとります。2.5といった値をとることはありません。

 

これに対し、連続変量の場合、任意の二つの値の間に別の値が常に存在します。

 

そのよい例は身長です。ある子供の背丈は、今年120cmで、翌年には127cmになるとしましょう。

 

彼はその1年間に、ちょうど121cm, 122cmといった値をとって大きくなるのではなく、たとえば、120.01cm, 120.05cm, といったその間の無限個の背丈の値をとるわけです。

 

さて、これら2種類のタイプの量的変量を使ってどのように標本の個体を評価するのでしょうか。

 

離散変量の場合には数を数え、連続変量の場合は測定が必要になります。

 

自動車に関する変量のなかでは、“価格”は離散的です。お金は測るというよりも数えるものです(もちろん銀行などのように、ときにはコインがカバンに入れられて重さを測られることもありますが、これは例外)。

 

しかし、要点は以下のように述べることができます。

 

あなたがある自動車を買ったとき、その価格として700,000円、あるいは(こういったことはあまりないが)700,001円請求されることがあります。

 

しかし、これら2つの価格のように1 円離れたものの間に、もはや別の価格は考えられません。

 

これに対し一方、排気量は連続的です。

 

排気量を調べた場合、1300ccのこともあれば、1339ccのこともあり、その間にも無限に排気量の大きさが考えられます。

 

さて自動車の例において、その他の量的変量についていえばいずれが離散的でいずれが連続的でしょうか。

 

残るもののうち離散変量は、座席の数だけです。

 

自動車の座席の数を数えてみれば、それらは大体2, 4, 5, 6, 7, 8, 10のうちいずれかです。

 

これらの間の数字は考えられません(ただしこの場合、その取りうる値が等間隔ではない点が通常の離散変量とはやや異なります)。

 

これに対して、連続変量は、製造されてからの年月です。

 

それを測る尺度は、たとえば10ヶ月とか11ヶ月(つまり、任意の2つの値)の間に無限に値を考えることができます。

 

変量に応じてそのデータを取り扱う統計的手法も異なってきます。

 

しかしここで覚えておく必要があるのは、質的変量と呼ばれるものと、量的変量と呼ばれるものの間の相違です。

 

ただしこれについて話を進める前に、量的変量は、質的変量へと変換することができるという点を注意しておきましょう。

 

たとえば身長が150cm以下の人を“小さい”とし、150cmから180cmまでの人を“中ぐらい”とし、180cm以上の人を背が“高い”とすればよいわけです。

 

同様に試験において40パーセント以下しか点をとれなかった人は落第とみなし、40パーセント以上の人を合格とみなせばよいわけです。

 

しかしながら、このようにすれば情報が失われます。

 

上の例でいえば、カテゴリーのみを記録したとすれば、背丈の観測値や正確な試験の点数についてのデータを失うことになります。

 

データを扱いやすくするためには、このような犠牲も、ときには価値のあるものです。

 

しかしながら、このような犠牲は、その長所短所を十分考慮した上で払わなければなりません。

 

ここで、用語の使い方について明確にしておきましょう。

 

一つは、本によっては測定という言葉を単に連続的な量的変量に対してのみならず、すべての変量に対して用いています。

 

すなわち、カテゴリーに分類することを測定の非常に粗い形とみなしているわけです。

 

その場合、その粗さは順に、順序のあるカテゴリー、順位付け、離散的な量的変量、そして連続的な量的変量と減っていくわけです。

 

それゆえ、読者は“値”という言葉が(普通は量的変量にのみ使われるを思われがちですが)質的変量のさまざまな名前のついたカテゴリーに対しても使われているのがわかります。

 

もう一つは、しばしば“観測値”あるいは“観測された値”という言葉が用いられているのに気づきます。

 

これは標本の各個体に対してなされた測定、計数、あるいは分類を表すものです。

 

たとえば、100人の学生からなる標本において、その年齢を記録すれば、100個の観測値を得ることになります。

 

そのとき同時に各人の性別をも記録すれば、合計200個の観測値(あるいは、200個の観測された値といってもよいが)を持つことになります。

 

“観測値”という言葉は、このようにたとえその学生たちの年齢や性別を自分の目で“見ていなくとも”(たとえば、出生証明書には掲載されているが)十分用いることができます。

 

ときには、その学生たちすらまったく見ず、彼らに対してなされた質問の解答のみを見るにすぎないこともあります。

 

このような場合、本当は“記録値”(あるいはデータ)という方が望ましいのかもしれません。

 

もっと勉強したい方は⇒統計学入門セミナー

 

統計学セミナー

医療統計学は、自己学習ではどうしても時間がかかってしまい効率悪くなりがちです。本セミナー受講により、医療統計学の理論だけでなく実際の作業をどう進めるかなど、具体的な方法を伝授します。これにより、医療統計学の理解が倍増すること間違いなし!この機会にぜひご活用ください。



HOME プロフィール 統計セミナー 出張相談サービス お問い合わせ