推定についての知識が怪しい方は、こちらを先に読むことをお勧めします。
[blogcard url="https://hikitaro.com/statistical_inference/"] [blogcard url="https://hikitaro.com/types_of_estimator/"]
区間推定の流れ
標本から推定量を計算し、その推定量の分布を調べ、指定された信頼度によって信頼区間を決定するというのが、区間推定の流れでした。
1.推定量を求める
母比率を推定するのに推定するのに使う推定量は、不偏性と一致性を兼ね備えた標本比率です。
2.推定量の分布を知る
推定量である標本分布の分布を知るためには、まず、母集団の分布を知る必要があります。
比率の分布:ベルヌーイ分布
母集団は、ベルヌーイ分布と呼ばれる分布に従います。ベルヌーイ分布は、ある事象が起きるか起きないかといった、結果が2通りしかない確率分布です。
証明を表示
\(E(x) = 1\cdot p+0 \cdot (1-p) = p\) \(E(x^2) = 1^2\cdot p+0^2 \cdot (1-p) = p\) \(V(x)=E(x^2)-E(x)^2=p^2-p=p(1-p)\)
推定量の分布
母分散である\(p(1-p)\)を\(n\)で割ったものが、標本比率の分散となります。 母分散はサンプル数が多いときには、標本分散\(\overline{p}(1-\overline{p})\)によって近似されます。
標本比率を標準化すると、
$$\frac{\overline{p}-p}{\sqrt{ \frac{\overline{p}(1-\overline{p})}{n}}}$$
この統計量がサンプル数が十分に大きいときには、標準正規分布に従います。
3.信頼度の決定
信頼度は、90%や95%に指定されることが多いです。
標本比率の分布+信頼度の情報がそろったら、信頼区間を決定することができます。信頼区間を求める際には、分布表を使います。
分布表の使い方について、怪しい方はこちら
区間推定完了!
これで、母比率の区間推定が完了です。下の例題を見て、理解を深めましょう。
例題:信頼区間を実際に求めよう!
最終学歴 | 割合(%) |
小・中学校卒 | 5 |
高校卒 | 30 |
専門学校卒 | 20 |
大学卒 | 30 |
大学院卒 | 10 |
その他 | 5 |
1.推定量を求める
母比率(大学・大学院卒が最終学歴である割合)の推定量として使うのは、標本比率。
$$\overline{p}=0.3+0.1=0.4$$
2.推定量の分布を調べる
母比率を標準化したものは、標準正規分布に従います。
$$\overline{p}(1-\overline{p}) = 0.4(1-0.4) = 0.24$$
標本比率の分散は
$$\frac{\overline{p}(1-\overline{p})}{n} =\frac{0.24}{1000}$$
$$\frac{\overline{p}-p}{\sqrt{ \frac{\overline{p}(1-\overline{p})}{n}}}$$
この統計量は標準正規分布に従う。
3.信頼度の指定
信頼度は95%
4.信頼区間の決定
分布表より
$$-1.96\leq\frac{\overline{p}-p}{\sqrt{ \frac{\overline{p}(1-\overline{p})}{n}}}\leq 1.96$$
これを\(p\)について解く。
$$\overline{p}-1.96\sqrt{\frac{\overline{p}(1-\overline{p})}{n}} \leq p \leq \overline{p}+1.96\sqrt{\frac{\overline{p}(1-\overline{p})}{n}}$$
値を代入する
$$0.37 \leq p \leq 0.43$$
信頼区間は
([0.37,0.43])
(0.4\pm0.03 ) ←このような表記をする場合もある。