2012年3月6日火曜日

差の信頼区間


前回の信頼区間では、真の平均値が95%や99%の確率で、どこからどこまでの範囲にあるということがわかるということでしたが、信頼区間を利用することによって真の差がどのくらいの範囲にある可能性があるかを示すこともできます。

例えば膝損傷で大腿から下腿のギプスを巻いた患者さんで、大腿四頭筋の筋力訓練を行った群と行わなかった群では1ヶ月後の最大歩行速度の差がどれくらいあるのかという場合などです。信頼区間によって真の差を含む値の範囲を示します。



具体的にやってみたいと思います。

ギプス除去直後に歩行速度を測定し、1ヶ月後にどれくらい歩行速度が速くなったかを測定します。

A)大腿四頭筋筋力強化群(n=5) 12.015.020.022.016.0(m/分)

B)トレーニング無し群(n=5)10.09.012.020.011.0(m/分)

大腿四頭筋筋力強化群の平均は17/分、トレーニング無し群の平均は12.4/分です。差は4./分です。

トレーニング無し群でも筋力強化群より歩行速度が速くなったものもあり、この結果だけで筋力強化群が改善度が高い(すなわち有効である)という結論を出してはいけないのは、皆さんご存じの事だと思います。ここで統計学的な処理が必要となります。



細かい計算の説明は省きます。下図の様にエクセルに当てはめていきます。

手順1:標本Aと標本Bのデータを入力します。

手順2:サンプルサイズをそれぞれ入力します。

手順3:標本平均を入力します。この標本Aの場合数式は=AVERAGE(B2:B6)となります。蛇足ながらこの数式の意味はセルB2~B6の平均ということになりますので、サンプルの数などによって変動します。

手順4:標本分散を入力します。数式は=VARP(B2:B6)です。

手順5:平均偏差の平方和を入力します。標本分散×サンプルサイズのことですので、数式は=B9*B7となります。

手順5:推定母分散を入力します。数式は=(B10+C10)/((B7-1)+(C7-1))となります。

手順6:差の標準誤差の入力をします。数式は=SQRT(B11(1/B7+1/C7))です。SQRTはルート(平方根)です。ちなみに*はかけ算(×)と同じです。

手順7:t値を入力します。ここでは自由度は(標本Aのサンプルサイズ:5-1)+(標本Bのサンプルサイズ:5-1)=8となります。数式は=TINV(0.05,B7+C7-2)となります。

手順8:最後に差の信頼区間(確率95%)を入力します。下限値の数式は=(B8-C8)-B14*B12、上限値の数式は=(B8-C8)+B14*B12となります。



結果は-1.527205296~10.7272053となります。すなわち95%の確率で両群の母平均の真の差は-1.527205296~10.7272053の間にあるといえます。これは大腿四頭筋筋力強化群の歩行速度がトレーニング無し群と比べて10.7272053速くなるかもしれないし、逆に1.527205296遅くなるかもしれないという解釈になります。

また-1.527205296~10.7272053は0を含む範囲であるため差が0となる可能性もあり、つまり大腿四頭筋筋力強化群とトレーニング無し群では差がないという可能性があることになります。いわゆる統計学的に有意差は無いという状態ですね。信頼区間とt検定の間には密接な関係があります。実際にこのデータでt検定を行ったところ有意差はありませんでした。例えば差の信頼区間(95%)が3~10というように0を含まない場合、t検定でも有意差ありとなります。ただ有意差有りとするより、差の範囲が示してあるとわかりやすいため最近では信頼区間を記載することを求められているそうです。

エクセルに慣れていない方は数式等の入力方法がわからないかもしれませんが、決して難しいことをしているわけではないので、エクセルを少し使える方に聞いてもらえばにっこり教えてくれると思います。



(ちなみに上記実験データは全く架空のものですのでご注意ください)

1 件のコメント:

tomita さんのコメント...

一度読むと理解したつもりになるのですが、しばらく見ないうちにすっかり忘れています。
でも、原則が理解できると少しずつわかるような気がします。