▼▼▼▼▼▼▼▼ ▼▼▼▼▼▼▼▼
お問合せはこちら セミナー詳細こちら
医療統計学:変数変換の妥当性
医療統計学、医療経済学、数学のつぼをたとえ話でわかりやすく解説
運営者の20年以上にわたる医療統計学のノウハウを満載
変数変換の妥当性
正規分布をしていないデータの場合、変数変換をしたほうがよいのでしょうか?
一般的な統計的手法の多くは、理論的には正規性を仮定しています。
たとえば、平均値の検定などでよく使われるt検定は、データが正規分布をすることを仮定しています。
このため、変数変換を行ってデータを正規分布になるべく近づけることは、利用する統計的手法の理論的裏づけを保証することになります。
したがって、データを正規分布になるべく近づけるように変換を行うことの利点は、より多くの統計的手法がより理論的に正しい形で適用可能となる点といえます。
逆にこのような変数変換を行うことの一般的な欠点としては、変数変換を行った後に出てきた解析結果はあくまでも変数変換後の尺度における結果であり、元データの尺度における結果ではないということです。
正規分布は負の無限大から無限大まで(−∞、∞)で確率密度関数が定義されています。
このため、もしデータが0より大きい正値のみを示すものであったり、あるいは0から1の間〔0,1〕の値しかとらないような場合には、(−∞、∞)の値をとるような変数変換を行うことがあります。
変換を行うデータXが正値をとる場合の代表的な変数変換としては、ベキ正規変換(ボックス・コックス変換)があります。
また、確率や比率を表すような0から1の間の値をとるデータの場合の代表的な変換としては、ロジット変換があります。
こうした変換により、有限区間しかとらないデータを、正規分布などの無限区間で定義されているような分布に近づけることが可能なわけです。
正規分布が統計理論できわめて大きな位置を占める理由は、それが「誤差分布」であるとされるためです。
統計学では、データを構造と誤差に分けてとらえて現象をモデル化します。すなわち、
データ=構造+誤差
あるいは
データ=系統的変動+偶然的変動
とします。
統計的方法論に対する誤解の一つは、実務家の「実際のデータは正規分布しないにもかかわらず統計家は正規分布ばかりを問題にする」という批判です。
統計家が正規分布するといっているのは上式の右辺の「誤差」であるにもかかわらず、実務家は左辺の「データ」に正規性をみようとしています。
ここに誤解が生じるわけです。
データからどのように「構造」を見出すかがデータ解析の成功の鍵です。
もし仮にうまく構造が見出せたとしたら、後に残るのは誤差を表す正規分布のはずです。
したがって、構造を除去した後に正規分布が得られたらデータ解析はほぼ成功といえるでしょう。
変数変換も、データの素性を理解するうえでの重要な解析ツールです。
たとえば、対数変換によって正規分布が得られた場合、そのデータの変動に対して細かな要因が掛け算的に影響を与えているというような構造が考えられます。
このようにして現象に関する新たな知見が得られることになります。
もっと勉強したい方は⇒統計学入門セミナー