回帰分析の出力結果の読み取り方【統計入門】

この記事では、回帰分析の基礎となる考え方と、回帰分析の結果の読み取りかたについて、解説していきます。
統計検定2級対応問題 2019年11月問18,2018年11月問18, 2018年6月問2,問14, 2017年11月問2,問12, 2017年6月問15, 2016年11月問16, 2016年6月問5,問14 ご購入はこちら

回帰分析とは?

回帰分析:目的となる変数Yを、要因となる変数Xによって説明するための統計的手法。

回帰分析は、目的となる変数\(Y\)を変数\(X\)を使って説明、もしくは予想するのに、使われます。\(Y\)を\(X\)の式で表すことによって、\(X\)と\(Y\)の関係を表します。\(X\)を説明変数、\(Y\)を目的変数\(X\)と\(Y\)の関係を表す式回帰式といいます。

回帰分析をすると、このように(Y)を(X)で表した式を得ます。

この式が表すのは、

  1. \(X\)が\(1\)単位増えたら、\(Y\)は\(a\)増える。
  2. \(X\)が\(0\)のとき、\(Y=b\)

ここからは、例を見て理解を深めましょう。

例:単回帰分析

この回帰式から読み取れること
  • 広告費が3万円の店の売り上げは106万円であると予想される。
  • 広告費を1万円増やすごとに、売り上げは2万円上がる予想される。
  • 広告を全く出さなかった店の売り上げは100万円であると予想される。

このように、1つの説明関数を使う回帰分析を、単回帰分析と言います。

例2:重回帰分析

以下はあるチェーン店の売り上げについて、広告費、従業員数、駅からの距離を説明関数に、回帰分析結果をした結果である。

(Y=1.5X_1+3X_2-5X_3+150)

(X_1):広告費(万円) (X_2):従業員数(人) (X_3):駅からの距離(km)

この回帰式から読み取れること
  • 広告費が1万円、従業員数が3人、駅からの距離が2kmの店の売り上げは、\(1.5\times1+3\times3-5\times2+100=106.5\)万円であると予想される。
  • 従業員を1人増やすと、売り上げは3万円上がると予想される。
  • 駅からの距離が1km遠くなるごとに、売り上げは5万円下がると予想される。

このように、2つの説明関数を使う回帰分析を、重回帰分析と言います。

回帰式の求め方:最小2乗法

回帰式は最小2乗法によって求められます。

最小2乗法:データとの距離の2乗の和を最小にするような回帰式を求める。

広告費と店の売り上げについての例を使って、説明していきます。こちらは、広告費と店の売り上げについて、プロットしたものです。

ここに回帰式によって描かれる直線(回帰直線)ひきます。このとき、それぞれの点と直線との距離の2乗の和が最小になるようにします。

(具体的な計算方法についてはこちら

これで回帰式が求められました。これによって、広告費によって、売り上げを予想することが可能になります。

説明関数が2つや3つに増えても、回帰式の求め方は変わりません。

回帰分析の出力の読み取り方

ここからは実際に回帰分析をした際に得られる出力を、どのように読み取ればいいのか、解説していきます。

この段階では、何がなんだかわかりません。ご心配なく。ここから1つ1つの数値が何を表すのか、説明していきます。

Estimate:\(\beta_0 〜 \beta_3\)の推定値

Estimateはそれそれの説明変数の係数の推測値です。この結果より

というような重回帰モデルが予測されます。

Std. Error:標準誤差

標準誤差:推定量のばらつきを表す統計量。

標準誤差が大きいと、推定値は、使う標本によって大きく異なり、モデルはあまり正確ではないということができます。

逆に、標準誤差が小さいと、推定値は、使う標本に依存しにくく、モデルは正確であるということができます。

t-value, Pr(<|t|):推定値の仮説検定の結果

推定値が正しいものか判断するために、回帰分析では(\(\beta_0 〜 \beta_3\))の推定値それぞれに対し、仮説検定が行われています。

\(\beta_0\)に関する仮説検定は…
帰無仮説・対立仮説

\(H_0\)が正しい、つまり\(\beta_0=0\)のとき、