統計的検定について怪しい方は、こちらの記事を先に読むことをお勧めします。 [blogcard url="https://hikitaro.com/what_is_statistical_test/"]
統計的検定の手順
統計的検定では、まず帰無仮説と対立仮説を定めます。帰無仮説が正しいと仮定し、統計量の分布を調べます。ある確率よりも実際の統計量が得られる確率が小さかったとき、対立仮説を採用。そうでないとき帰無仮説を採用します。
独立性の検定とは?
例えば、「塾に通っているかどうか」と「第一志望の学校に合格するかどうか」は関係があるのか調べたいとき、この独立性の検定を使います。
クロス集計表によって情報を整理し、それぞれの観測値について、統計量を計算します。
1.帰無仮説、対立仮説を立てる。
「2つの事象は独立である」という前提で考えていきます。独立であったときの予測値と、観測値が大きく離れていた場合、2つの事象は独立でない、何か関係があると判断します。
2.予測が正しいときの分布を調べる。
予測が正しいとき、
3.有意水準の決定
有意水準は5%や10%に設定されることが多いです。帰無仮説上で起こる確率が5%/10%より少ないとき、帰無仮説を棄却し、対立仮説を採択します。
4.棄却域の決定
統計量の分布+有意水準の情報が揃ったとき、棄却域を求めることができます。
5.統計量を求め、棄却域内に入るか検証。
実際に標本から観測値を求め、統計量を計算し、帰無仮説上でどのくらいの確率で、その統計量になるのか調べます。
検定完了! これで、統計的検定が完了です。下の例題を見て、理解を深めましょう
例題:独立性の検定
以下は、とある学年の「塾に通っていたかどうか」と「第一志望の学校に合格したかどうか」の関係についてまとめたものである。
第一志望に合格 | 第一志望に不合格 | 計 | |
塾に通っていた | 45 | 33 | 78 |
塾に通っていない | 53 | 62 | 115 |
計 | 98 | 95 | 193 |
1.帰無仮説、対立仮説を立てる。
帰無仮説と対立仮説は、問題によって与えられている。
2.予測が正しいときの分布を調べる。
予測が正しいとき、統計量
$$\chi2 = \sum \frac{(観測値-予測値)2}{予測値}$$
は、自由度*2の(\chi2)分布に従う。
ここで、1つ目の事象について分類の数は、塾に通っていた・通っていないの2通り。
2つ目の事象について分類の数は、第一志望に合格・不合格の2通り。
よって、この統計量は、
自由度((2-1)(2-1)=1)のカイ2乗分布に従う。
3.有意水準の決定
有意水準は5%。
4.棄却域の決定
分布表より…
(\chi2 < 0.001, 1.32 < \chi2)
5.統計量を求め、棄却域内に入るか検証。
帰無仮説は「2つの事象は関係ない」なので、塾に通った人が第一志望に受かる割合と塾に通っていない人が第一志望に受かる割合は同じと言うことになります。
塾に通ったかつ、第一志望に合格した人の予測値は
(塾に通っていた人数\cdot全体)の(合格率)
(=78\cdot\frac{98}{193}=40)
一つの値が定まったので、他のマスの値は決まります。
予測値について、クロス集計表にまとめてみます。
第一志望に合格 | 第一志望に不合格 | 計 | |
塾に通っていた | 40 | 38 | 78 |
塾に通っていない | 58 | 57 | 115 |
計 | 98 | 95 | 193 |
それぞれの合計値は変わらないというのに注意してください。
$$\frac{(観測値-予測値)2}{予測値}$$
を全てのマスに対して計算し、足し合わせます。
$$\sum \frac{(観測値-予測値)2}{予測値}$$
(=\frac{(45-40)2}{40}+\frac{(33-38)2}{38}+\frac{(53-58)2}{58}+\frac{(62-57)2}{57})
(=2.15)
これは棄却域に入るので、帰無仮説を棄却して、対立仮説を採用する。
つまり、塾に通うかどうかと、第一志望の学校に入れるかどうかは、なんらかの関係があると判断します。
適合度検定では、予測値に対して観測値がどれだけ離れているか統計量を計算しました。独立性の検定でも、事象が独立であった時の予測値に対して、観測値がどれだけ離れているか統計量を計算するので、独立性の検定も適合度検定の一種であると言うことができます。
(適合度検定についてはこちら)
証明については、こちらのサイトを参考にしてください。
自由度は、自由に取れる値の数。独立性の検定では、下のようにクロス集計表を使って情報を整理します。
この時、自由に取れる値は、赤部分です。各合計の値は固定されているので、赤部分が決まった段階で。他のマス目の値は決まります。
よって、自由度は((n-1)(m-1