t検定の種類と使い分けについて勉強した話 [備忘]

t検定について勉強したので書いておく。あくまでも私の理解なので、間違ってたらスミマセンと最初に謝っておくことにする。

そもそも検定は、統計量を何かと比較して「差があると言っていいの?」「それとも誤差なの?」を調べる手法である。厳密ではないのだろうが、こう考えると理解がしやすい。

t検定の他に「カイ二乗検定」などが聞き覚えがあるが、これらは扱う統計量が違うだけで、同じように差が有意かどうかを調べるために行う。

t検定は、「平均値」の検定である。

なお、この検定には「データが正規分布に従っている」という前提がある。

従って、データ数が少ない場合は行わないほうが良い。また、データが多い場合にもヒストグラムを描いて、「単峰」で「対称性」があるかを確認しておいたほうが良い。もし、正規分布に従わないことが明らかな場合は、ノンパラメトリックな別の手法を用いるべきである。

比較したいデータの種類に応じて以下のように分類される。

手法
1 1群のデータの平均を母平均と比較する 1サンプルt検定
2 対応のない2群のデータの平均を比較する 対応のないウェルチのt検定
3 対応のある2群のデータの平均を比較する 対応のある検定

「対応がある」「対応がない」とは、同じ対象からサンプルを抽出したかどうかである。「対応がある」場合は、同じ対象からサンプルを抽出した場合。「対応がない」は異なる対象からサンプルを抽出した場合。

「対応がある」場合は、例えば同じ社内からサンプルを抽出した場合など。「対応がない」は、異なる支社間や異なる国間(日本とアメリカ)など。すなわち、「対応がない」場合は、2群のデータがそれぞれに異なる母平均を持っている場合である。

特に、2番の「対応のない」場合がややこしい。

一般的に、「対応のない」場合は、各データの等分散性を「F検定」で行い、等分散性がある場合には、「対応のない・等分散性のあるデータのt検定」を行う。対して、等分散性がない場合には「対応のない・等分散性のないデータのt検定」を行う。

しかし、F検定→t検定と進むと、「第一種の過誤」が大きくなるため、色々と論争があり、最近では等分散性の検定を行わずに、当分散性がないとして検定を行うことが多くなってきている。

ちなみに、第一種の過誤とは、「本当は差がないものを、差があると誤ってしまうこと」である。

t検定で重要なのは、「t値」、「自由度」、「p値」である。

特に、p値は「差があると仮定した時に、p値の確率で間違う」という意味の数字であり非常に重要である。

一般的には、このp値を有意水準という数字と比較して、p値が有意水準より小さければ「差がある」という。有意水準は、0.05または0.01が慣例的によく使われる。

t検定をした結果、p値が有意水準0.05より小さいということはつまり、「差があると仮定して、それが間違いで実は差がなかった確率が5%以下」ということである。

同様に、p値が有意水準0.01以下ということは、「差がありまーす」って言って、「いや、やっぱりさっきの間違いで、実は差がありませんでした」という確率が1%以下ということである。

ということで、わかったようなわからないような、統計って難しいということがわかった。

SNSでもご購読できます。