単回帰分析とは?説明変数・目的変数など基礎知識を解説

この記事では、回帰分析の中でも説明変数が1つである基礎的な単回帰分析について解説します。

回帰直線の構造(説明変数、目的変数。回帰係数)

回帰分析とは、2つの変数の間に因果関係があると見出し、変数xから変数yを予測することをいいます。

回帰分析の中でも1つの説明変数で目的変数を示すものを単回帰分析といい、回帰直線と呼ばれるy=ax+bの一次関数の式を用います。グラフで表すとこのようになり、aが直線の傾き、bがyとの切片となります。このy=ax+bの式の各要素は次のような呼び方をします。

x:説明変数
y:目的変数(被説明変数)
aとb:回帰係数

特にy=ax+bの回帰係数a・bがグラフでいうと傾きと切片を意味しているという構造について理解しておきましょう。

回帰直線を決定する仕組み(最小二乗法)

回帰分析では、回帰直線を用いて変数xから変数yを予測しますが、「データの分布に対して、いかに最も適した直線を引けるか」が焦点となります。

では、どう最適な直線を引くことができるのか。それが最小二乗法という方法になります。各値から直線との差を最小にするa(傾き)とb(切片)を求めることで最適な直線を引くことができという方法となります。(各値と直線の差の最小を求める計算は微分を使うことで求めることができますが、高度な数学となるため、ここでは説明を割愛します。)

回帰分析を行う際に注意する点

回帰分析において注意すべき点を4つ紹介します。

1点目は、2変数間の関係が直線的でないと測れないという点です。左図のような一次関数であれば使えますが、このような二次関数の曲線の関係には使えません。

2点目に「外れ値」の影響を強く受けるという点です。左の散布図と右の散布図では、外れ値の有無で相関性が大きく変化します。

3点目は、一部のデータを用いると結果が大きく変わる場合があるという点です。データをグループごとに分析すると異なる結果が得られる場合があります。下図のように全体では相関性が低くても赤いグループだけだと相関性がみられます。

4点目に「外挿」はしてはいけないという点です。外挿とは、既に観測したことがあるデータの範囲外のデータを予測することです。観測したデータ範囲で作られる直線のため、観測したことがない値では、予測と大きく異なる結果となる場合があります。

以上のような点に注意して回帰分析は用いるようにしましょう。

動画解説

本記事で解説した内容は、こちらの動画でも解説しています。よかったらご視聴ください。