2011年12月6日火曜日

四分位範囲

データに偏りが無い場合、平均値と標準偏差を使用します。
偏りがある場合は中央値と四分位範囲、範囲を示すのがよいと思います。
例えば以前のブログのテーピング実費代金の場合、偏りがあるため代表値は中央値を用いて500円です。最小値は100円で最大値は20000円です。
テーピング実費希望代金(中央値(範囲)):500(100-20000)円となります。これだと最大値と最小値の外れ値に引きずられ、データの範囲がいまいちわかりづらいです。このため小さい方の25%のデータ、大きい方25%のデータを捨てて残った中央部の半分(50%)のデータの範囲を求めた値が「四分位範囲」(quartile range)といいます。
テーピングのデータをもとに具体的にいいますとデータ数が20なので小さい方の5データと、大きい方の5データを捨てた中央部の10データで表します。
小さい方から数えて6番目(5番目までを捨てるので)のデータは400円です。大きい方から数えて6番目のデータは700円です。(小さい方の25%の点を第1四分位点、75%の点を第3四分位点といいます。ちなみに第2四分位点は50%の点になりますので中央値となります。)
これを表記すると
(中央値(四分位範囲)〔範囲〕):500(400-700)〔100-20000〕円
という感じになります。
中央値は500円で、100円から20000円までデータがあって、中央50%のデータが400円から700円の間という解釈になります。

EXCELの関数はQUARTILEです。関数でQUARTILEと入力して、範囲を選び、その後戻り値という欄がありますので0を入力すると最小値、1で第1四分位点、2で中央値、3で第3四分位点、4で最大値を表示します。ちなみに計算してみると第1四分位点は400円で一緒なのですが、第3四分位点は725円になります。これは四分位範囲の定義が違うそうです。(統計ソフトによって定義が違うので数字が違うそうです。これはそういうものだと知っていれば今のところはいいと思いますが・・・?)
この範囲を視覚化したものが箱ひげ図です。

2 件のコメント:

tomita さんのコメント...

統計ソフトによって違うということですが、以前統計に詳しい先生にエクセルは表計算ソフトであって、統計ソフトではないと聞いています。
学会の発表の場合はやはり専門の統計ソフトを
用いたほうがよいのでしょうか?
それとも簡単なものならエクセルでも構わないよ…みたいな流れがあるのでしょうか?

亀仙人 さんのコメント...

学会発表ではやはり統計ソフトを使わなくてはならないそうです。
(参考にした雑誌「理学療法」にも以前問題になったことがあるという感じで書いてあります)
ただこの場合はエクセルだから精度が低いという問題ではなく、あくまで定義が違うため数値が違っているそうです。例えばRという統計ソフトでは6種類くらいの定義があるそうです。