t検定について勉強したので書いておく。あくまでも私の理解なので、間違ってたらスミマセンと最初に謝っておくことにする。

そもそも検定は、統計量を何かと比較して「差があると言っていいの?」「それとも誤差なの?」を調べる手法である。厳密ではないのだろうが、こう考えると理解がしやすい。

t検定の他に「カイ二乗検定」などが聞き覚えがあるが、これらは扱う統計量が違うだけで、同じように差が有意かどうかを調べるために行う。

t検定は、「平均値」の検定である。

なお、この検定には「データが正規分布に従っている」という前提がある。

従って、データ数が少ない場合は行わないほうが良い。また、データが多い場合にもヒストグラムを描いて、「単峰」で「対称性」があるかを確認しておいたほうが良い。もし、正規分布に従わないことが明らかな場合は、ノンパラメトリックな別の手法を用いるべきである。

比較したいデータの種類に応じて以下のように分類される。

続きを読む