JET会のブログ: 差の信頼区間

前回の信頼区間では、真の平均値が95％や99％の確率で、どこからどこまでの範囲にあるということがわかるということでしたが、信頼区間を利用することによって真の差がどのくらいの範囲にある可能性があるかを示すこともできます。

例えば膝損傷で大腿から下腿のギプスを巻いた患者さんで、大腿四頭筋の筋力訓練を行った群と行わなかった群では1ヶ月後の最大歩行速度の差がどれくらいあるのかという場合などです。信頼区間によって真の差を含む値の範囲を示します。

具体的にやってみたいと思います。

ギプス除去直後に歩行速度を測定し、１ヶ月後にどれくらい歩行速度が速くなったかを測定します。

Ａ）大腿四頭筋筋力強化群（ｎ＝５）　12.0、15.0、20.0、22.0、16.0（ｍ/分）

Ｂ）トレーニング無し群（ｎ＝５）10.0、9.0、12.0、20.0、11.0（ｍ/分）

大腿四頭筋筋力強化群の平均は17ｍ/分、トレーニング無し群の平均は12.4ｍ/分です。差は4.ｍ/分です。

トレーニング無し群でも筋力強化群より歩行速度が速くなったものもあり、この結果だけで筋力強化群が改善度が高い（すなわち有効である）という結論を出してはいけないのは、皆さんご存じの事だと思います。ここで統計学的な処理が必要となります。

細かい計算の説明は省きます。下図の様にエクセルに当てはめていきます。

手順１：標本Ａと標本Ｂのデータを入力します。

手順２：サンプルサイズをそれぞれ入力します。

手順３：標本平均を入力します。この標本Ａの場合数式は=AVERAGE(B2:B6)となります。蛇足ながらこの数式の意味はセルＢ２～Ｂ６の平均ということになりますので、サンプルの数などによって変動します。

手順４：標本分散を入力します。数式は=VARP(B2:B6)です。

手順５：平均偏差の平方和を入力します。標本分散×サンプルサイズのことですので、数式は=B9*B7となります。

手順５：推定母分散を入力します。数式は=(B10+C10)/((B7-1)+(C7-1))となります。

手順６：差の標準誤差の入力をします。数式は=SQRT(B11＊(1/B7+1/C7))です。SQRTはルート（平方根）です。ちなみに＊はかけ算（×）と同じです。

手順7：ｔ値を入力します。ここでは自由度は（標本Ａのサンプルサイズ：５－１）＋（標本Ｂのサンプルサイズ：５－１）＝８となります。数式は=TINV(0.05,B7+C7-2)となります。

手順８：最後に差の信頼区間（確率９５％）を入力します。下限値の数式は=(B8-C8)-B14*B12、上限値の数式は=(B8-C8)+B14*B12となります。

結果は-1.527205296～10.7272053となります。すなわち９５％の確率で両群の母平均の真の差は-1.527205296～10.7272053の間にあるといえます。これは大腿四頭筋筋力強化群の歩行速度がトレーニング無し群と比べて10.7272053速くなるかもしれないし、逆に1.527205296遅くなるかもしれないという解釈になります。

また-1.527205296～10.7272053は０を含む範囲であるため差が０となる可能性もあり、つまり大腿四頭筋筋力強化群とトレーニング無し群では差がないという可能性があることになります。いわゆる統計学的に有意差は無いという状態ですね。信頼区間とｔ検定の間には密接な関係があります。実際にこのデータでｔ検定を行ったところ有意差はありませんでした。例えば差の信頼区間（９５％）が３～１０というように０を含まない場合、ｔ検定でも有意差ありとなります。ただ有意差有りとするより、差の範囲が示してあるとわかりやすいため最近では信頼区間を記載することを求められているそうです。

エクセルに慣れていない方は数式等の入力方法がわからないかもしれませんが、決して難しいことをしているわけではないので、エクセルを少し使える方に聞いてもらえばにっこり教えてくれると思います。

（ちなみに上記実験データは全く架空のものですのでご注意ください）

JET会のブログ

2012年3月6日火曜日

差の信頼区間

1 件のコメント:

自己紹介

ブログアーカイブ