分散分析・分散分析表(一元配置)【統計入門】

この記事では、分散分析の基本的な考え方と、分析結果の見方について解説しています。
統計検定2級対応問題 2017年11月問16, 2017年6月問14 ご購入はこちら

分散分析とは

分散分析:統計的検定の1つで、3つ以上の母平均に違いがあるのか調べるのに、用いられる。

母平均に影響を与えうる要因が1つである場合、一元配置の分散分析となります。

[voice icon="https://hikitaro.com/wp-content/uploads/2019/06/40089718.2b41005ba0d1899a3f0bf130c1f85933.19060315-1-e1561226485604.jpg" name=“ユウガ” type="l"]名前は分散分析だけど、調べるのは母平均の違いなので、注意が必要![/voice]

分散分析表の見方

ここからは、実際に分散分析の結果をまとめた、分散分析表を見て、どのように母平均の違いについて調べることができるのか、解説していきます。

[voice icon="https://hikitaro.com/wp-content/uploads/2019/06/40089718.2b41005ba0d1899a3f0bf130c1f85933.19060315-1-e1561226485604.jpg" name=“ユウガ” type="l"]この段階では、何がなんだかわかりません。ご心配なく。ここから1つ1つの数値が何を表すのか、説明していきます。[/voice]

1.平方和/Sum Sq

平方和はクラスの行と、残差の行にあります。

クラスの行の平方和:水準間平方和

水準(今回はクラス)の間の差を計算するのが、水準間平方和です。

\(水準間平方和=\sum (全体\)の\(平均-水準平均)^2\)

今回の例では、

残差の平方和:クラス内の差の2乗

水準内の差を計算するのが、残差の平方和です。

\(残差\)の\(平方和=\sum(データ\)の\(値-水準平均)^2+…+\sum(データ\)の\(値-水準平均)^2\)=35807

今回の例では、

2.自由度/Df

自由度とは、自由に取れる値の数。分散分析では、「それぞれの平方和を計算する際に、自由に取れる値の数」を意味します。

\(水準間\)の\(自由度(f_1)=水準数-1\)

水準間の平均を計算する際、最後の1つの値は、他の値によって決まります。これは全体平均の縛りがあるからです。

今回の例では、3組の水準平均は1組と2組の水準平均によって定まります。

よって自由度は\(3-1=2\)となっています。

\(水準内\)の\(自由度(f_2)=(各水準\)の\(データ数-1)\times 水準数\)

水準内の平均を計算する際、それぞれの水準の最後の1つの値は、他の値によって決まります。

例えば、1組に関して、\(\sum(1組のデータ-1組の平均)^2\)を求める際、最後の1人の点数は、他の\(28\)人の点数で決まってしまいます。これは、水準平均の縛りがあるからです。

よって自由度は、\((29-1)\cdot 3=84\)となります。

3.平方平均/Mean Sq

統計的検定をするために、平方平均を用います。

分散分析では、帰無仮説、対立仮説を

というように立てます。そして、

母平均が全て等しいとき、平方平均の比は自由度\((f_1,f_2)\)の\(F\)分布に従います。

今回の例では、

$$\frac{クラス間平方平均}{クラス内平方平均}$$

が自由度\((2,84)\)の\(F\)分布に従います。

4.F値・Pr(>F)

F値は平方平均の比の値、\(Pr(>F)\)は\(F\)値が、今回計算されたものよりも大きくなる確率を示します。下の図の通りです。

分散分析表からわかること

分散分析によって、母平均が全て等しいときに、F値が\(1.38\)よりも大きくなる確率は\(25\)%であるということが分かりました。

この結果を有意水準5%で検定すると、帰無仮説を採択。つまり、母平均は全て正しく、テストの点数はクラスによって変わらないと判断します。

有意水準(10)%で検定しても同様に、母平均は全て正しいと判断することになります。

\(Pr(>F)\)の値によって、どのような統計的検定でどちらの仮説を採択するのか、決まります。

統計検定2級対応問題 2017年11月問16, 2017年6月問14 ご購入はこちら