2011年11月21日月曜日

統計の話1

平均と中央値について
データの代表値の主な示し方には平均値と中央値がある。
平均は対象者全ての値を合計し、その人数で割って求める。(excelの関数ではAVERAGE)

中央値は対象者のデータを大きい順、または小さい順に並べ真ん中の値とする。データ数が偶数の場合は真ん中二つ数値を足して2で割った値とする。(excelの関数ではMEDIAN)
例)1、2、3、4、5の場合中央値は3
1、2、3、4、5、6の場合中央値は(3+4)÷2=3.5

データに偏りがない場合平均値と中央値はほぼ同じ値となるが、データに偏りがある場合平均値と中央値は大きく違うことがある。
データに偏りがない場合を正規分布と呼ぶが、正規分布の場合は平均値と中央値どちらを用いても良いが、数理的に有利な平均を使うことが妥当であるとされている。
データに偏りがある場合(正規分布でない場合)中央値を用いることが妥当である。
データが正規分布に従うものかどうかの判断は、シヤピロ・ウイルク(ShapiroーWilk)検定(後述)を行う。

1 件のコメント:

tomita さんのコメント...

いいですね
統計の勉強は何度もしようとしては中途半端な理解でそのまま放置してあります。
是非パート2も期待しています。