この記事では、回帰分析の基礎となる考え方と、回帰分析の結果の読み取りかたについて、解説していきます。
統計検定2級対応問題
2019年11月問18,2018年11月問18, 2018年6月問2,問14, 2017年11月問2,問12, 2017年6月問15, 2016年11月問16, 2016年6月問5,問14
ご購入はこちら
回帰分析とは?
回帰分析:目的となる変数Yを、要因となる変数Xによって説明するための統計的手法。
回帰分析は、目的となる変数\(Y\)を変数\(X\)を使って説明、もしくは予想するのに、使われます。\(Y\)を\(X\)の式で表すことによって、\(X\)と\(Y\)の関係を表します。\(X\)を説明変数、\(Y\)を目的変数、\(X\)と\(Y\)の関係を表す式を回帰式といいます。
回帰分析をすると、このように(Y)を(X)で表した式を得ます。
\(Y=aX+b\)
この式が表すのは、
- \(X\)が\(1\)単位増えたら、\(Y\)は\(a\)増える。
- \(X\)が\(0\)のとき、\(Y=b\)
ここからは、例を見て理解を深めましょう。
例:単回帰分析
以下はあるチェーン店の売り上げについて、広告費を説明関数に、回帰分析結果をした結果である。
\(Y=2X+100\)
\(Y\):売り上げ(万円)
\(X\):広告費(万円)
この回帰式から読み取れること
- 広告費が3万円の店の売り上げは106万円であると予想される。
- 広告費を1万円増やすごとに、売り上げは2万円上がる予想される。
- 広告を全く出さなかった店の売り上げは100万円であると予想される。
このように、1つの説明関数を使う回帰分析を、単回帰分析と言います。
例2:重回帰分析
以下はあるチェーン店の売り上げについて、広告費、従業員数、駅からの距離を説明関数に、回帰分析結果をした結果である。
(Y=1.5X_1+3X_2-5X_3+150)
(X_1):広告費(万円)
(X_2):従業員数(人)
(X_3):駅からの距離(km)
この回帰式から読み取れること
- 広告費が1万円、従業員数が3人、駅からの距離が2kmの店の売り上げは、\(1.5\times1+3\times3-5\times2+100=106.5\)万円であると予想される。
- 従業員を1人増やすと、売り上げは3万円上がると予想される。
- 駅からの距離が1km遠くなるごとに、売り上げは5万円下がると予想される。
このように、2つの説明関数を使う回帰分析を、重回帰分析と言います。
回帰式の求め方:最小2乗法
回帰式は最小2乗法によって求められます。
最小2乗法:データとの距離の2乗の和を最小にするような回帰式を求める。
広告費と店の売り上げについての例を使って、説明していきます。こちらは、広告費と店の売り上げについて、プロットしたものです。

ここに回帰式によって描かれる直線(回帰直線)ひきます。このとき、それぞれの点と直線との距離の2乗の和が最小になるようにします。

(具体的な計算方法についてはこちら)
これで回帰式が求められました。これによって、広告費によって、売り上げを予想することが可能になります。
説明関数が2つや3つに増えても、回帰式の求め方は変わりません。
回帰分析の出力の読み取り方
ここからは実際に回帰分析をした際に得られる出力を、どのように読み取ればいいのか、解説していきます。
あるスーパーマーケットの売り上げについて、以下のよ
うな重回帰モデルを推定し、検証した。
ここで、平均年齢(average_age)、年収の中央値(median_income)、人口(popuation)は、スーパーマーケットから3km圏内のものである。\beta_0は切片である。
出力結果
この段階では、何がなんだかわかりません。ご心配なく。ここから1つ1つの数値が何を表すのか、説明していきます。
Estimate:\(\beta_0 〜 \beta_3\)の推定値
Estimateはそれそれの説明変数の係数の推測値です。この結果より
というような重回帰モデルが予測されます。
Std. Error:標準誤差
標準誤差が大きいと、推定値は、使う標本によって大きく異なり、モデルはあまり正確ではないということができます。
逆に、標準誤差が小さいと、推定値は、使う標本に依存しにくく、モデルは正確であるということができます。
t-value, Pr(<|t|):推定値の仮説検定の結果
推定値が正しいものか判断するために、回帰分析では(\(\beta_0 〜 \beta_3\))の推定値それぞれに対し、仮説検定が行われています。
\(\beta_0\)に関する仮説検定は…
\(H_0\):\(\beta_0=0\)
\(H_1\):\(\beta_0 \neq 0\)
\(H_0\)が正しい、つまり\(\beta_0=0\)のとき、
統計量
$$t=\frac{\beta_0の推定値}{\beta_0の標準誤差}$$
は自由度\
*1が求められています。
Residual standard error:残差の標準誤差
回帰モデルの予測値と実際のデータとの差を表す統計量を自由度で割ったものです。
残差の標準誤差が大きいほど、モデルの予測値と実際の値が離れていて、良いモデルではないと言えます。
Multiple R-squared:決定係数
決定係数:モデルの当てはまりのよさを表す統計量。説明変数が、目的変数を説明している割合。
今回のモデルでは、決定係数は\(0.1196\)。これは、説明変数(年収中央値、平均年齢、人口)は全体の約12%しか説明していないということを表します。
Adjusted R-squaredは自由度調整済み決定係数と呼ばれます。説明変数が多いときには、こちらが使われます
F-statistic, p-value:分散分析の結果
回帰分析では、帰無仮説、対立仮説を
\(H_0\):モデルの説明力=0
\(H_1\):モデルの説明力\(neq\) 0
とした、分散分析をします。
モデルの説明力が0のとき、
統計量
$$F = \frac{R^2/k}{(1-R^2)/(n-
k-1)}$$
は、自由度\((k, n-
k-1)\)の\(F\)分布に従う。
このFの値を計算したのが、F-statisticとなります。
このとき、p-valueは、F値が、求められた値(F-statistic)より大きくなる確率を表しています。
今回の重回帰モデルのp-valueは\(0.713\)。これは、モデルの説明力が0のとき、今回求められたF-statisticよりも、F値が大きくなる確率が70%ほどであるということを表します。つまり、このモデルは有意水準5%10%ともに、帰無仮説を採択、つまりモデルの説明力は0であるということになります。
統計検定2級対応問題
2019年11月問18,2018年11月問18, 2018年6月問2,問14, 2017年11月問2,問12, 2017年6月問15, 2016年11月問16, 2016年6月問5,問14
ご購入はこちら
このとき、\(Pr(>|t|)\)は\(t\)値の絶対値が、求められた値より大きくなる確率を表しています。
\(\beta_0\)の\(Pr(>|t|)\)の値は、\(0.0284\)。これが意味するのは、「\(\beta_0=0\)のとき、\(t\)値が\(3.453\)より大きくなる確率は、\(0.00284\)」ということです。
これは、有意水準1%,5%,10%で帰無仮説を棄却し、対立仮説を採択、つまり\(\beta_0 \neq 0\)を採択するということになります。
(\beta_1〜\beta_3)についても、同様にt値、(Pr(>|t|