母比率の差の検定【統計入門】

この記事では、母比率の差の検定の手順を1から説明しています。
この記事を読む前に!

統計的検定について怪しい方は、この記事を先に読むことをお勧めします。

[blogcard url="https://hikitaro.com/what_is_statistical_test/"]

統計検定2級対応問題 2018年11月問15 ご購入はこちら

統計的検定の手順

統計的検定では、まず帰無仮説と対立仮説を定めます。帰無仮説が正しいと仮定し、統計量の分布を調べます。ある確率よりも実際の統計量が得られる確率が小さかったとき、対立仮説を採用。そうでないとき帰無仮説を採用します。

母比率の差とは?

ある二つの母集団(A,B)の母比率(\pi_A, \pi_B)が等しいと言えるのかどうか、標本比率や標本数を使い統計的に検証するのが、この母比率の差の検定です。

1.帰無仮説と対立仮説を立てる。

二つの母比率は等しいというのを前提で、考えていきます。この記事では、両側検定について考えます。

2.帰無仮説が正しいとき、標本から得られる統計量が従う分布を調べる。

(\pi_A = \pi_B)のとき、標本比率の差*1の分布は...

説明

3.有意水準の決定

有意水準は5%や10%に設定されることが多いです。帰無仮説上で起こる確率が5%/10%より少ないとき、帰無仮説を棄却し、対立仮説を採択します。

4.棄却域の決定

標本比率の差の分布+有意水準の情報が揃ったとき、棄却域を求めることができます。

5.統計量を求め、棄却域内に入るか検証。

実際に標本から標本平均の差を求め、帰無仮説上でどのくらいの確率で、その統計量になるのか調べます。

検定完了! これで、統計的検定が完了です。下の例題を見て、理解を深めましょう。

例題:母比率の差の検定

1.帰無仮説と対立仮説を立てる。

2.帰無仮説が正しいとき、標本から得られる統計量が従う分布を調べる。

カリフォルニア州共和党への得票率を(p_A), テキサス州共和党への得票率を(p_B)とする。

母比率の差がない*2のとき、統計量

$$\frac{p_A - p_B}{\sqrt{\overline{P}(1-\overline{P})(\frac{1}{n_A}+\frac{1}{n_B})}}$$

は標準正規分布に従う。ただし、

$$\overline{p} = \frac{n_Ap_A+n_Bp_B}{n_A+n_B}=0.53$$

3.有意水準の決定

有意水準は、5%.

4.棄却域の決定

分布表より

統計量の棄却域は…

$$\left|\frac{p_A - p_B}{\sqrt{\overline{P}(1-\overline{P})(\frac{1}{n_A}+\frac{1}{n_B})}} \right| > 1.96$$

・(p_A - p_B)について解く

$$|p_A-p_B| > 1.96\sqrt{\overline{P}(1-\overline{P}(\frac{1}{n_A}+\frac{1}{n_B})}$$

・それぞれ値を代入する。

$$|p_A-p_B| > 0.03$$

棄却域の決定の決定完了!

5.統計量を求め、棄却域内に入るか検証。

標本比率の差は、

(p_A - p_B = -0.3)

これは、棄却域内に入る。

よって、帰無仮説を棄却して、対立仮説を採択する。

統計検定2級対応問題 2018年11月問15 ご購入はこちら

*1:p_A-p_B

*2:d=0

母平均の差の検定【統計入門】

この記事では、母平均の差の検定の手順を1から説明しています。
この記事を読む前に!

統計的検定について怪しい方は、この記事を先に読むことをお勧めします。

[blogcard url="https://hikitaro.com/what_is_statistical_test/"]

統計検定2級対応問題 2018年11月問13, 2018年6月問12[1],2017年11月問13[2], 2016年11月12[2],2016年6月問11[2][3] ご購入はこちら

統計的検定の手順

統計的検定では、まず帰無仮説と対立仮説を定めます。帰無仮説が正しいと仮定し、統計量の分布を調べます。ある確率よりも実際の統計量が得られる確率が小さかったとき、対立仮説を採用。そうでないとき帰無仮説を採用します。

母平均の差とは?

2つの確率変数\(X\),\(Y\)について考えます。

それぞれの平均値\(\mu_X\), \(\mu_Y\)は等しいと言えるのかどうか、統計的に検証するのが、この母平均の差の検定です。

1.帰無仮説と対立仮説を立てる。

2つの確率変数(X),(Y)について、期待値は等しいというのを前提で、考えていきます。今回は、両側検定について考えます。

2.帰無仮説が正しいとき、標本平均の差が従う分布を調べる。

標本平均の差の分布は、母集団の情報や使った標本によって、異なります。

①母分散が既知のとき

証明

②母分散が未知で、サンプルが少ない(\(n, m < 30\))

自由度\((n+m-2)\)の理由

自由度とは、「自由に取れる値の数」

(\frac{X_1+...+X_n}{n}=\overline{X}) (\frac{Y_1+...+Y_m}{m}=\overline{Y})

の2つの縛りがあり、(X_n), (Y_m)の2つの値は、(X_1)〜(X{n-1}),( Y_1)〜(Y{m-1})の値が定まった時点で、決まる。自由度は(全標本の数-2)。

③母分散が未知で、サンプルが多い(\(n, m > 30\))

ポイント 標本平均の差の分布は、それぞれの確率変数の平均\(\overline{X},\overline{Y}\)の分布による。 標本平均の分布の調べ方は、こちらで確認できます!

3.有意水準の決定

有意水準は5%や10%に設定されることが多いです。帰無仮説上で起こる確率が5%/10%より少ないとき、帰無仮説を棄却し、対立仮説を採択します。

4.棄却域の決定

標本平均の差の分布+有意水準の情報が揃ったとき、棄却域を求めることができます。

5.統計量を求め、棄却域内に入るか検証。

実際に標本から標本平均の差を求め、帰無仮説上でどのくらいの確率で、その統計量になるのか調べます。

検定完了! これで、統計的検定が完了です。下の例題を見て、理解を深めましょう。

例題:母平均の差の検定

1.帰無仮説と対立仮説を立てる。

帰無仮説と対立仮説は、問題によって与えられている。福岡県、栃木県のイチゴの重さの母平均をそれぞれ、\(\mu_X, \mu_Y \)とおく。

これは、片側検定(上側)です。

2.帰無仮説が正しいとき、標本から得られる統計量が従う分布を調べる。

(\mu_X=\mu_Y)のとき、統計量

$$\frac{\overline{X}-\overline{Y}}{\sqrt{\frac{{\sigma_X}^2}{n}+\frac{{\sigma_Y}^2}{m}}}$$

は標準正規分布に従う。

3.有意水準の決定

有意水準は、(5)%.

4.棄却域の決定

分布表より

統計量の棄却域は… $$\frac{\overline{X}-\overline{Y}}{\sqrt{\frac{{\sigma_X}^2}{n}+\frac{{\sigma_Y}^2}{m}}} < 1.645$$

・\(\overline{X}-\overline{Y}\)について解く

$$\overline{X}-\overline{Y} < 1.645\sqrt{\frac{{\sigma_X}^2}{n}+\frac{{\sigma_Y}^2}{m}}$$

・それぞれ値を代入する。

({\sigma_X}^2={\sigma_Y}^2=100) (n=121, m=169) より

$$\overline{X}-\overline{Y} > 1.96$$

棄却域の決定完了!

5.統計量を求め、棄却域内に入るか検証。

標本平均の差は、

$$\overline{X}-\overline{Y}=40-38=2$$

これは、棄却域内に入る。

よって、帰無仮説を棄却して、対立仮説を採択する。

統計検定2級対応問題 2018年11月問13, 2018年6月問12[1],2017年11月問13[2], 2016年11月12[2],2016年6月問11[2][3] ご購入はこちら

統計的検定とは?例を用いて解説【統計入門】

この記事では、統計的検定の考え方の基本を紹介しています!
統計学の知識を試すには、統計検定2級がおすすめ! 統計検定2級は、データサイエンスや機械学習で必要な、基礎的な統計学の知識をカバーしています。 ご購入はこちら

統計的検定とは?

統計的検定とは、「仮説が正しいかどうか検証する」ということです。

例えば、「全国の平均身長は150cmである」と仮説を立てます。このとき、それが本当なのか検証するのが、統計的検定です。標本から統計量(標本平均や不偏分散など)を計算することにより、仮説が妥当であるか検証します。

もし標本平均を計算した結果、152cmであったら、全国の平均身長は150cmであるという仮説は、正しい可能性が高くなります。これは、「全国の平均身長は150cm」というのが本当だった場合に、標本平均が150cm周辺になる確率は大きくなるからです。

対して、もし標本平均を計算した結果、170cmであったら、全国の平均身長は150cmであるという仮説は、間違っている可能性が高くなります。これは、「全国の平均身長は150cm」というのが本当だった場合に、標本平均が170cmになる確率は小さくなるからです。

この確率が一定水準より大きいとき、「全国の平均身長は150cmであると仮説」は正しいと判断し、一定水準より小さいとき、「全国の平均身長は150cmであると仮説」は誤っていると判断するのが統計的検定です。

直感的に統計的検定の考え方は、理解できたでしょうか。 ここからは、具体的な統計的検定の手順について、見ていきます。

統計的検定の手順

1.帰無仮説、対立仮説を立てる。

帰無仮説:前提となる仮説 対立仮説:検証する仮説

統計的検定は、帰無仮説は正しい」という前提のもとで始まります。 対立仮説は、名前の通り帰無仮説は正しくない」という仮説です。帰無仮説、対立仮説をそれぞれ1つずつ立て、この2つの仮説のどちらかを採択します。

帰無仮説は(H_0), 対立仮説は(H_1)と表されます。

検定の種類

検定には、対立仮説の立て方によって、3種類あります。 両側検定、片側検定(上側)、片側検定(下側)です。

  • 帰無仮説での統計量ではない」といった対立仮説を立てた場合、両側検定
  • 帰無仮説での統計量より大きい」といった対立仮説を立てた場合、片側検定(上側)
  • 帰無仮説での統計量より小さい」といった対立仮説を立てた場合、片側検定(下側)

どの対立仮説を使うかは、恣意的に決めることができます。例えば「全国の身長はもっと大きいはずだ!」と主張したい場合には、2つ目の片側検定(上側)を対立仮説として使います。

2.帰無仮説が正しいとき、標本から得られる統計量が従う分布を調べる。

帰無仮説が正しいと仮定するというのが、ポイントです。

3.有意水準の決定

有意水準帰無仮説を棄却する確率

帰無仮説上で、起こる確率が小さいことが起こったとき、帰無仮説を棄却し、対立仮説を採用します。

このとき、どのくらい確率が小さいとき、帰無仮説を棄却し、対立仮説を採用するのかを決めるのが有意水準(危険率とも言われる)です。

棄却域は、5%や10%が指定されることが多いです。これは帰無仮説上で起こる確率が、5%以下/10%以下であることが起こったとき、帰無仮説を棄却し、対立仮説を採択するということを、意味します。

4.棄却域の決定

棄却域帰無仮説を棄却する範囲。

棄却域は、帰無仮説上での統計量の分布+有意水準によって決定されます。逆に帰無仮説を採用する範囲を受容域と言います。

棄却域や受容域を求めるのは、区間推定で信頼区間を求めるのと、似ています。

5.統計量を求め、棄却域内に入るか検証。

実際に標本から統計量を求め、帰無仮説上でどのくらいの確率で、その統計量になるのか調べます。

統計量が棄却域に入る→対立仮説を採択 統計量が棄却域に入らない→帰無仮説を採択

検定完了!

これで、統計的検定が完了です。下の例題を見て、理解を深めましょう。

統計的検定の流れ

例題:統計的検定

1.帰無仮説、対立仮説を立てる。

これは、既に問題によって与えられています。

2.帰無仮説が正しいとき、標本から得られる統計量が従う分布を調べる。

帰無仮説が正しい、つまり \(\mu=150\)であるとき、標本平均\(\overline{X}\)の従う分布は…

統計量が従う分布の調べ方は、区間推定の際と同じです。

(これにピンとこなかった方は、こちらの記事を!)

3.有意水準の決定

有意水準は\(5\)%。

4.棄却域の決定

分布表より統計量の棄却域は...

(\frac{\overline{X}-\mu}{\frac{\sigma}{n}} \leq -1.96, 1.96 \leq \frac{\overline{X}-\mu}{\frac{\sigma}{n}})

・(\overline{X})について解く (\overline{X} \leq \mu - 1.96\frac{\sigma}{n}, \mu + 1.96\frac{\sigma}{n} \leq \overline{X})

・値を代入する ( \overline{X} \leq 149.7256, 150.2744 \leq \overline{X})

棄却域の決定の決定完了!

5.統計量を求め、棄却域内に入るか検証。

標本平均は\(155cm\)。これは棄却域に入るので、帰無仮説(\(\mu=150\))を棄却して、対立仮説(\(\mu \neq 150\))を採択。

統計学の知識を試すには、統計検定2級がおすすめ! 統計検定2級は、データサイエンスや機械学習で必要な、基礎的な統計学の知識をカバーしています。 ご購入はこちら

母分散の区間推定【統計入門】

この記事では、母分散の区間推定をする方法を解説しています。
この記事を読む前に!

推定についての知識が怪しい方は、こちらを先に読むことをお勧めします。

[blogcard url="https://hikitaro.com/statistical_inference/"] [blogcard url="https://hikitaro.com/types_of_estimator/"]

統計学の知識を試すには、統計検定2級がおすすめ! 統計検定2級は、データサイエンスや機械学習で必要な、基礎的な統計学の知識をカバーしています。 ご購入はこちら

区間推定の流れ

標本から推定量を計算し、その推定量の分布を調べ、指定された信頼度によって信頼区間を決定するというのが、区間推定の流れでした。

1.推定量を求める

母分散を推定するのに推定するのに使う推定量は、不偏性と一致性を兼ね備えた不偏分散\(u^2\)です。

2.推定量の分布を知る

不偏分散\(u^2\)の分布: 統計量 \(\frac{(n-1)u^2}{\sigma^2}\) は自由度\(n-1\)のカイ2乗分布に従う。 (\(n\):サンプル数, \(\sigma^2\):母分散)

統計量がカイ2乗分布に従う理由

カイ二乗分布というのは、「標準正規分布に従う、確率変数の2乗の和」が従う分布でした。 これを踏まえて不偏分散\(u^2\)を変形してみます。

$$u2 = \frac{(X_1-\overline{X})2+ …+(X_n-\overline{X})2}{n-1}$$ ((n-1)u2 = X_1-\overline{X})2+ …+(X_n-\overline{X})2)

両辺を\(\sigma^2\)で割る

$$\frac{(n-1)u2}{\sigma2} = (\frac{X_1-\overline{X}}{\sigma})2+…+ (\frac{ X_n-\overline{X}}{\sigma})2$$

\(X_1…X_n\)から、\(\overline{X}\)をひいて\(\sigma\)で割る。これは、標準化する際に、母平均の代わりに標本平均を使ったバージョンです。

・標本平均\(\overline{X}\)は母平均\(\mu\)の推定値なので、\(\frac{ X_n-\overline{X}}{\sigma}\)も\(X_n\)を標準化したものであるとみなせる。

・標準化された、\(X_1…X_n\)は標準正規分布に従う。

これより、\(\frac{(n-1)u^2}{\sigma^2}\)は標準正規分布の2乗の和であるので、カイ2乗分布に従います。

自由度\(n-1\)の理由

自由度とは、自由に取れる値の数

上の統計量には、

$$\frac{X_1+…+X_n}{n}= \overline{X}$$

という縛りがあります。

すると、\(X_1,...,X_{n-1}\)の値が定まった時点で、\(X_n\)の値が決まってしまいます。よって自由に取れる値の数は、\((n-1)\)個です。

3.信頼度の決定

信頼度は、90%や95%に指定されることが多いです。

4.信頼区間の決定

不偏分散の分布+信頼度の情報がそろったら、信頼区間を決定することができます。信頼区間を求める際には、分布表を使います。

分布表の使い方について、怪しい方はこちら

区間推定完了!

これで、母分散の区間推定が完了です。下の例題を見て、理解を深めましょう。

例題:母分散の区間推定!

1.推定量を求める

母分散の推定量として使うのは、不偏分散

・不偏分散を求めるために、まずは標本平均\(\overline{X}\)を求める。

$$\overline{X}=\frac{300+...+200}{5}250$$

・不偏分散を求める。

$$u2=\frac{(X_1-\overline{X})2+ …+(X_n-\overline{X})2}{n-1}$$ (=\frac{(300-250)2+…+(200-250)2}{5-1}=12500)

2.推定量の分布を調べる

不偏分散\(u^2\)について、統計量\(\frac{(n-1)u^2}{\sigma^2}\)は、自由度\(5-1=4\)のカイ2乗分布に従う。

3.信頼度の指定

信頼度は90%

4.信頼区間の決定

分布表より

$$1.06 \leq \frac{(n-1)u2}{\sigma2} \leq 7.78$$

・(\sigma2)について解く

$$\frac{(n-1)u2}{7.78} \leq \sigma2 \leq \frac{(n-1)u2}{1.06}$$

・値を代入する

$$6426.74 \leq \sigma2 \leq 47169.81$$

区間推定完了!

信頼区間

([6426.74,47169.81])

統計学の知識を試すには、統計検定2級がおすすめ! 統計検定2級は、データサイエンスや機械学習で必要な、基礎的な統計学の知識をカバーしています。 ご購入はこちら

母比率の区間推定【統計入門】

この記事では、母比率の区間推定をする方法を解説しています。
この記事を読む前に!

推定についての知識が怪しい方は、こちらを先に読むことをお勧めします。

[blogcard url="https://hikitaro.com/statistical_inference/"] [blogcard url="https://hikitaro.com/types_of_estimator/"]

統計検定2級対応問題 2019年11月問13,問15, 2018年11月問12,2018年6月問11, 2017年11月問13,2016年6月問10 ご購入はこちら
比率とは? 比率とは、兄弟がいる人の割合、パスポートを持っている人の割合など、全体に対する相対量を表します。

区間推定の流れ

標本から推定量を計算し、その推定量の分布を調べ、指定された信頼度によって信頼区間を決定するというのが、区間推定の流れでした。

1.推定量を求める

母比率を推定するのに推定するのに使う推定量は、不偏性と一致性を兼ね備えた標本比率です。

2.推定量の分布を知る

定量である標本分布の分布を知るためには、まず、母集団の分布を知る必要があります。

比率の分布:ベルヌーイ分布

母集団は、ベルヌーイ分布と呼ばれる分布に従います。ベルヌーイ分布は、ある事象が起きるか起きないかといった、結果が2通りしかない確率分布です。

ベルヌーイ分布 確率密度関数: \[ f(x) = \left\{ \begin{array}{ll} p & (x=1) \\ 1-p & (x=0) \end{array} \right. \] \(x\)は事象が起こったときに\(1\)、起こらなかったときに\(0\)をとります。 期待値と分散 \(E(x) = p\) \(V(x) = p(1-p)\)
証明を表示

\(E(x) = 1\cdot p+0 \cdot (1-p) = p\) \(E(x^2) = 1^2\cdot p+0^2 \cdot (1-p) = p\) \(V(x)=E(x^2)-E(x)^2=p^2-p=p(1-p)\)

定量の分布

定量の分散:\(\frac{p(1-p)}{n}\) 推定量の分布:標本比率を標準化したものが、標準正規分布に従う

母分散である\(p(1-p)\)を\(n\)で割ったものが、標本比率の分散となります。 母分散はサンプル数が多いときには、標本分散\(\overline{p}(1-\overline{p})\)によって近似されます。

標本比率を標準化すると、

$$\frac{\overline{p}-p}{\sqrt{ \frac{\overline{p}(1-\overline{p})}{n}}}$$

この統計量がサンプル数が十分に大きいときには、標準正規分布に従います。

3.信頼度の決定

信頼度は、90%や95%に指定されることが多いです。

4.信頼区間の決定

標本比率の分布+信頼度の情報がそろったら、信頼区間を決定することができます。信頼区間を求める際には、分布表を使います。

分布表の使い方について、怪しい方はこちら

区間推定完了!

これで、母比率の区間推定が完了です。下の例題を見て、理解を深めましょう。

例題:信頼区間を実際に求めよう!

1.推定量を求める

母比率(大学・大学院卒が最終学歴である割合)の推定量として使うのは、標本比率。

$$\overline{p}=0.3+0.1=0.4$$

2.推定量の分布を調べる

母比率を標準化したものは、標準正規分布に従います。

標準化するために、母分散の代わりに使う標本分散を求める

$$\overline{p}(1-\overline{p}) = 0.4(1-0.4) = 0.24$$

標本比率の分散は

$$\frac{\overline{p}(1-\overline{p})}{n} =\frac{0.24}{1000}$$

標準化!

$$\frac{\overline{p}-p}{\sqrt{ \frac{\overline{p}(1-\overline{p})}{n}}}$$

この統計量は標準正規分布に従う。

3.信頼度の指定

信頼度は95%

4.信頼区間の決定

分布表より

$$-1.96\leq\frac{\overline{p}-p}{\sqrt{ \frac{\overline{p}(1-\overline{p})}{n}}}\leq 1.96$$

これを\(p\)について解く。

$$\overline{p}-1.96\sqrt{\frac{\overline{p}(1-\overline{p})}{n}} \leq p \leq \overline{p}+1.96\sqrt{\frac{\overline{p}(1-\overline{p})}{n}}$$

値を代入する

$$0.37 \leq p \leq 0.43$$

区間推定完了!

信頼区間

([0.37,0.43])

(0.4\pm0.03 ) ←このような表記をする場合もある。

統計検定2級対応問題 2019年11月問13,問15, 2018年11月問12,2018年6月問11, 2017年11月問13,2016年6月問10 ご購入はこちら

母平均の区間推定【統計入門】

この記事では、母平均の区間推定をする方法を3パターンに分けて、紹介しています。
この記事を読む前に!

推定についての知識が怪しい方は、こちらを先に読むことをお勧めします。

[blogcard url="https://hikitaro.com/statistical_inference/"] [blogcard url="https://hikitaro.com/types_of_estimator/"]

統計検定2級対応問題 2019年11月問14[2],2018年6月問10[2], 2016年6月問11[1] ご購入はこちら

区間推定の流れ

標本から推定量を計算し、その推定量の分布を調べ、指定された信頼度によって信頼区間を決定するというのが、区間推定の流れでした。

1.推定量を求める

母平均を推定するのに使う推定量は、不偏性と一致性を兼ね備えた標本平均です。

定量:$$標本平均 \overline{X}=\frac{X_1+...+X_n}{n}$$

2.推定量の分布を知る

標本平均の分布は、母集団の情報や使った標本によって、異なります。

①母分散が既知な場合

標本平均の分散:\(\frac{\sigma^2}{n}\) 標本平均の分布:標本平均を標準化したものが、標準正規分布に従う

母分散である、\(\sigma^2\)を\(n\)で割ったものが、標本平均の分散となります。

証明

標本平均を標準化すると、

$$\frac{\overline{x}- \mu}{\sqrt{\frac{\sigma2}{n}}}=\frac{\overline{x}- \mu}{\frac{\sigma}{\sqrt{n}}}$$

この統計量が標準正規分布に従います。

②母分散が未知で、サンプル数が少ない\((n < 30)\)

標本平均の分散:\(\frac{u^2}{n}\) 標本平均の分布:標本平均を標準化したものが、自由度\((n-1)\)の\(t\)分布に従う

母分散が未知な場合は、標本から不偏分散を求め、これを母分散の代わりとして使います。(不偏分散を使う理由は不偏性、一致性の両方を兼ね備えていて、母分散の推定量(点推定)として適切だから)

母分散の代わりである\(u^2\)を\(n\)で割ったものが、標本平均の分散となります。

標本平均を標準化すると、

$$\frac{\overline{x}- \mu}{\sqrt{\frac{u2}{n}}}=\frac{\overline{x}- \mu}{\frac{u}{\sqrt{n}}}$$

この統計量が自由度\((n-1)\)の\(t\)分布に従います。

③母分散が未知で、サンプル数が多い\((n \geq 30)\)

標本平均の分散:\(\frac{u^2}{n}\) 標本平均の分布:標本平均を標準化したものが、標準正規分布に従う

母分散が未知なので、上と同様に不偏分散を求め、これを母分散の代わりとして使います。

母分散の代わりである(u2)を(n)で割ったものが、標本平均の分散となります。

標本平均を標準化すると、

$$\frac{\overline{x}- \mu}{\sqrt{\frac{u2}{n}}}=\frac{\overline{x}- \mu}{\frac{u}{\sqrt{n}}}$$

サンプルが多い場合、この統計量がt分布ではなく、標準正規分布に従います。

標本平均が従う分布の調べ方まとめ

3.信頼度の指定

信頼度は、90%や95%に指定されることが多いです。

4.信頼区間の決定

標本平均の分布+信頼度の情報がそろったら、信頼区間を決定することができます。信頼区間を求める際には、分布表を使います。

分布表の使い方について、怪しい方はこちら

区間推定完了!

これで、母平均の区間推定が完了です。下の例題を見て、理解を深めましょう。

例題:信頼区間を実際に求めよう!

1.推定量を求める

母平均(全校生徒の平均身長)の推定量として使うのは、標本平均

$$\overline{x} = \frac{160+150+170+145+165}{5} = 158$$

2.推定量の分布を調べる

母分散が未知で、サンプル数が少ないので、標本平均を標準化したものは、自由度\((5-1)=4\)の\(t\)分布に従う。

標準化するために、母分散の代わりに使う不偏分散を求める

$$u2=\frac{(160-158)2+…+(165-158)2}{5-1}=107.5$$

標本平均の分散は

$$\frac{u2}{n}=\frac{107.5}{5}=21.5$$

(分散はこの段階で求める必要はありません)

標準化!

$$\frac{\overline{x}-\mu}{\sqrt{\frac{u2}{n}}}=\frac{\overline{x}-\mu}{\frac{u}{\sqrt{n}}}$$

3.信頼度の指定

信頼度は\(95\)%

4. 信頼区間の決定

分布表より

$$-2.78\leq\frac{\overline{x}-\mu}{\frac{u}{\sqrt{n}}}\leq 2.78$$

これを\(\mu\)について解く。

$$\overline{x}-2.78\frac{u}{\sqrt{n}}\leq\mu\leq\overline{x}+2.78\frac{u}{\sqrt{n}}$$

値を代入する

$$145.10\leq\mu\leq170.89$$

区間推定完了!

信頼区間は 

([145.10,170.89])

(158\pm12.89 ) ←このような表記をする場合もある。

統計検定2級対応問題 2019年11月問14[2],2018年6月問10[2], 2016年6月問11[1] ご購入はこちら

推定で不偏分散を使う理由を証明【統計入門】

この記事では、推定をする際に標本分散ではなく、不偏分散を使わなければならないことを証明します。
この記事を読む前に!

不偏性や推定について怪しい方は、こちらの記事を先に読むことをお勧めします。 [blogcard url="https://hikitaro.com/statistical_inference/"] [blogcard url="https://hikitaro.com/types_of_estimator/"]

不偏性と推定

母数を推定する際に必要なのが、不偏性と一致性。標本分散は一致性はありますが、不偏性はありません。不偏分散は不偏性と一致性の両方を兼ね備えているので、推定に使うのに、適しています。

下はそのことの証明となっています。

標本分散に不偏性がないことの証明

不偏分散に不偏性があることの証明