重回帰分析とは?Webマーケティングでの具体例で解説!

この記事では、ビジネスでもよく使われる分析手法である重回帰分析について解説します。

重回帰分析とは

重回帰分析とは、1つの目的変数を複数の説明変数を用いて予測する分析手法です。目的変数など回帰式に関する基本情報はこちらの記事を参照ください。

重回帰式は次のように表されます。yは目的変数、β0は切片、β14は説明変数の係数です。

マーケティングにおいては、例えば、各種のマーケティング施策の売上への貢献度をモデル化し、最適な投資配分を決定するといったことに用いられますが、今回は私が実際に携わったSNSマーケティングにおける数値結果(ダミーデータ)をもとに具体的に説明をしていきたいと思います。

STEP1:説明変数の選定

まず、目的変数に影響があると考えられる説明変数を候補として選択します。説明変数の選択法について詳細は割愛しますが、各変数を1つずつ増やしたり、減らしたりしながら最適な組合せを選定するステップワイズ法(説明増減法)などがあります。また、変数は最大でも7つほどにおさめないと精度の高い予測ができないともいわれています。重回帰分析の落とし穴で有名な「多重共線性」にも気をつけましょう。(末尾で簡単に触れています。)今回は、SNSマーケティングを例に、次のような設定で分析を行いました。

目的変数
SNS経由でのECサイト訪問数(セッション数)

説明変数
インプレッション数
いいね数
リツイート数
UGC数(※)
※User Generated Contentsの略。ユーザーが投稿する自社のサービス名称について言及したツイートの数

STEP2:最小二乗法を用いた回帰式の推定(Excelでの結果の出力)

「最小二乗法」は、実測値と予測値の差である残差の総和(残差平方和)を最小にする(つまり最も当てはまりの良い)回帰式の傾きと切片を推定する手法です。通常、実務では統計ソフトを使って計算します。今回はExcelのデータ分析機能を使って次のような結果が得られました。

「係数」という箇所が各説明変数の係数の結果となります。これをもとに回帰式にすると次のようになります。

y = -438.8234 + 0.0064x1 + 0.4051x2 – 0.6827x3 – 0.0064x4
(セッション数)(切片)(インプレッション)(いいね)(リツイート)(UGC)

次は、結果をもとにこの回帰式の評価を行います。

STEP3:回帰式の評価(補正R2, 有意F, p値, t値)

回帰式の評価観点は主に次の4点です。

①補正R回帰式の精度は高いか?
②有意F:回帰式の説明変数の組み合わせは意味のあるものか?
③p値:各説明変数は目的変数に影響があるか?
④t値:各説明変数は目的変数にどれほど影響しているか?

結果の表で見ていきましょう。

①補正R(自由度調整済み決定係数):回帰式の精度高いか?

推定された回帰式の予測精度(説明力)を評価する指標です。決定係数は説明変数が増えるほど大きくなる性質があるため、重回帰式では「自由度調整済み決定係数」で補正をして評価します。0~1の値を取り、1に近いほど精度が高いと言えます。今回の結果では、「0.72…」のため比較的精度は高い回帰式になっていると言えます。

②有意F:回帰式の説明変数の組み合わせは意味のあるものか?

F検定を用いて、回帰式が統計的に有意かを評価しています。F検定は分散分析に用いられ、3グループ以上のデータに差があるかを検定します。ここでは、回帰式の「説明変数の組み合わせ」を対象に意味のある結果かを検定しています。一般的に値が0.05未満(もしくは0.01未満)で有意と判断されます。今回の結果では、「0.00014…」のため有意という結果です。

③p値:各説明変数は目的変数に影響があるか?

一般的に0.05未満(もしくは0.01未満)で有意、つまり、その係数(説明変数)が目的変数に対して影響がある採用して良い変数と判断されます。今回の結果では、0.05未満なのは、「インプレッション」だけになりますので、他の説明変数は目的変数に対する有意に影響していないという結果でした。

④t値:各説明変数は目的変数にどれほど影響しているか?

t値は、2つのグループのデータを対象に有意差を検定する「t検定」によって求められる値で、各係数(説明変数)が目的変数にどれだけ影響度があるかを示しています。

先ほどの有意Fは全ての説明変数の組み合わせという3グループ以上のデータを対象に比較するF検定を用いて評価をしていましたが、こちらは、各説明変数と目的変数を比較した2グループのデータのためt検定を用いています。

例えば、今回の結果では、そもそもp値の結果から目的変数に有意な影響があったのはインプレッションだけでした。インプレッションの結果をみるとt値は「2.37…」となっています。一般的にt値は絶対値2以上で意味がある(95%の確率で有意)と言われていますので、t値の結果からもインプレッションは目的変数に影響がある変数と言えます。今回は1つの変数しか影響が有意にないという結果になりましたが、仮に2つ以上の変数が有意だった場合は、このt値の絶対値の大きさを比較して、どの変数がより大きな影響を目的変数に対して与えているかを分析することもできます。

分析結果のまとめ

以上の結果から、補正Rの結果では、比較的精度の高い回帰式となっており、有意Fの値からも意味のある回帰式となっているものの、各説明変数のt値、p値の結果をみるとインプレッションだけが目的変数に対して有意ということがわかりました。

STEP4:再分析

結果から今回、有意とならなかった説明変数は外して改めて回帰分析を行いました。結果、次のように説明変数が1つの単回帰分析となりました。

補正Rは0.7208…→0.72105…とさらに高くなり、有意Fも0.05より今回も小さいです。また、インプレッションのp値は今回も0.05を下回り有意で、t値はさらに高い6.894…となりました。

以上のように、回帰分析の結果を見ながら、説明変数を調整し、当てはまりの良い回帰式を見つけていきます。

重回帰分析に関する注意事項等

多重共線性(VIF)
説明変数同士に強い相関があると決定係数が高くなりやすく結果の解釈が難しくなるという現象のことです。予め各変数間の相関性を確認し、相関が強いものについては、どちらかの変数を採用しないといった調整が必要です。