統計的検定について怪しい方は、こちらの記事を先に読むことをお勧めします。 [blogcard url="https://hikitaro.com/what_is_statistical_test/"]
統計的検定の手順
統計的検定では、まず帰無仮説と対立仮説を定めます。帰無仮説が正しいと仮定し、統計量の分布を調べます。ある確率よりも実際の統計量が得られる確率が小さかったとき、対立仮説を採用。そうでないとき帰無仮説を採用します。
適合度の検定とは?
例えば、「遅刻する生徒の数は、曜日によらない」という予測に対し、実際に遅刻する生徒の数を調べ、この予測は正しいのかどうか検証するのが、適合度の検定です。
1.帰無仮説、対立仮説を立てる。
予測が正しいという前提で考えていきます。予測値からのずれがあまりに大きい時には、予測は間違いであると判断します。
2.予測が正しいときの分布を調べる。
予測が正しいとき。。。
は、自由度\(k-1\)のカイ2乗分布に従う。(\(k\)は観測値の数)
証明については、こちらのサイトを参考にしてください。
3.有意水準の決定
有意水準は5%や10%に設定されることが多いです。帰無仮説上で起こる確率が5%/10%より少ないとき、帰無仮説を棄却し、対立仮説を採択します。
4.棄却域の決定
統計量の分布+有意水準の情報が揃ったとき、棄却域を求めることができます。
5.統計量を求め、棄却域内に入るか検証。
実際に標本から観測値を求め、統計量を計算し、帰無仮説上でどのくらいの確率で、その統計量になるのか調べます。
検定完了! これで、統計的検定が完了です。下の例題を見て、理解を深めましょう。
例題:適合度の検定
曜日 | 月 | 火 | 水 | 木 | 金 | 計 |
遅刻生徒数 | 53 | 45 | 40 | 47 | 30 | 215 |
1.帰無仮説、対立仮説を立てる。
帰無仮説と対立仮説は、問題によって与えられている。
2.予測が正しいときの分布を調べる。
予測が正しいとき、統計量
(\chi2 = \sum \frac{(観測値-予測値)2}{予測値})
は、自由度\(k-1\)の\(\chi^2\)分布に従う。
ここで、観測値の数は月〜金の遅刻生徒数の5つなので、 自由度は、(5-1=4)
3.有意水準の決定
有意水準は5%。
4.棄却域の決定
分布表より…
棄却域は、
(\chi2 < 0.48, 5.39 < \chi2)
5.統計量を求め、棄却域内に入るか検証。
帰無仮説は「遅刻する生徒の数は、曜日によらない」なので、全ての曜日で遅刻生徒数が同じになります。
遅刻した生徒は合計\(215\)人なので、帰無仮説上では全ての曜日での遅刻生徒数は...
$$\frac{215}{5} = 43$$
これが、全ての曜日に対する予測値です。
$$\frac{(観測値-予測値)2}{予測値}$$
を全ての曜日に対して計算し、足し合わせます。
$$\chi2 = \sum \frac{(観測値-予測値)2}{予測値}$$ (=\frac{(53-43)2}{43}+\frac{(45-43)2}{43}+\frac{(40-43)2}{43}+\frac{(47-43)2}{43}+\frac{(30-43)2}{43}) $$=6.930233$$
これは棄却域に入る。よって帰無仮説を棄却し、対立仮説を採択。予測は間違っていたと判断する。