この記事では、アンケート調査などで用いられる「ウエイトバック集計」について解説をしています。
ウエイトバックとは
ウエイトバック(WB)とは、「アンケート調査の回収データを、母集団の構成比で補正して集計すること」をいいます。ウエイトバックについて理解をいただくために、まず、前提としてアンケート調査における回収データの「割付」について説明をしていきます。
割付とは
「割付」は、アンケート調査において「どのような人をどれくらい集めるか」を決めることです。
仮に20-60代の男女に合計で500サンプル、つまり500名にアンケートをするとします。(「●」は、サンプルの大きさを表していると思ってください。)もし割付を行わずにアンケートを回収した場合に、例えば、各年代、左の図のようなサンプルの量(●)でアンケートが回収されたとします。30代や40代の回答数が多く、60代の回答数が少ない状況です。このような回収結果となった場合、60代の意識が十分に把握できず分析ができなくなる可能性があります。
一方、割付を行った場合はどうでしょうか。仮に各年代、均等な回答数で回収するように割付をした場合には、右の図(「割付あり」)のようなサンプルの量のイメージになります。こうすることで、どこかの年代にだけ回答数が偏るといったリスクを抑えることができます。これが、割付をする意義になります。
では、次に割付の方法について解説をします。割付には先ほど解説したような均等に割り付ける方法と母集団構成比に合わせて割り付けるという方法があります。それぞれの違いについて見ていきます。
均等割付
まず、均等割付についてです。均等割付を行う場合は、項目同士の差を比較したい場合に用います。具体値で表すと合計を500サンプルとした場合、このように100ずつ均等に割り付ける形となります。
項目間の差を比較したいときには、サンプルサイズを均等にした方がなぜ良いのでしょうか?
例えば、極端な例ですが、30代の回答数が300サンプルで、60代の回答数が30だったとします。このとき、例えば、「Aという商品を直近1年以内に購入したことがあるか?」という質問に対してそれぞれ同じ20%が「はい」と回答したとします。その場合、30代の人は、300人の20%の60人がはいと回答したことになります。一方、60代は、30人の20%なので、6人の人がはいと回答したことになります。
回答者数の数字を見てなんとなくですが、30代の方が20%という結果の信頼度が高そうで、60代の30%という結果の方が信頼度が低そうに感じませんでしょうか?もし2名少なく「はい」と回答していた場合には、30代は、19.3%になりますが、60代は、13.3%になります。つまり、60代の方がサンプルサイズ が小さいことで回答による結果の「誤差」が大きくなりやすいのです。
もし30代と60代の回答結果が、はじめの20%と出ていたとしたら、この結果から2つの年代には購入経験に差はないという判断をする可能性があります。しかし、実態は、後者の19.3%と13.3%だったとしたら差はあったことになり、判断を見誤るリスクが生じてきます。このような背景から、項目間の差を比較する場合には、均等割付をしてフラットに比較できるようにすることが推奨されているのです。
サンプルサイズ と誤差の関係についてはこちらの記事でより詳しく解説をしています。
この記事では「標本誤差」について解説をします。標本誤差について知ることで、定量調査の設計や結果を正しく読み取ることにつながるのでぜひ理解をしていきましょう。また、標本誤差について説明をするにあたり前提として標本を使った調査の基本的な知識も[…]
次にもう1つの割付方法として「母集団構成比での割付(全体傾向を把握する)」について解説をしていきます。
母集団構成比での割付
母集団構成比での割付は、全体傾向を把握したいときに用いられます。母集団とは、簡単にいうと、私たちがアンケートを通して知りたい対象となる集団のことです。ここでの例の場合、日本国内に住む20-60代が知りたい対象の集団となります。この20−60代の各年代の人口構成比に合わせて回答数を回収する割付が母集団構成比での割付となります。具体的にはこのような数字となります。
これは、総務省統計局が公表している人口推計のデータをもとに構成比を算出し、その結果をもとにサンプルサイズ として設定をした結果となっています。
日本の統計が閲覧できる政府統計ポータルサイト「e-Stat」
全体傾向を把握したいとき、なぜ母集団構成比に合わせる必要があるのでしょうか?
例えば、「Aという商品を直近1年以内に購入したことがあるか?」という質問に対して、均等割付での20-60代の購入率が仮に40%だったとします。この結果から20-60代の商品Aの購入率は40%であると言えるでしょうか?これは、結論としては、20-60代の傾向として購入率40%であるとは言うことができません。
なぜなら均等割付では、実際の20−60代の年代の構成比ではないからです。母集団構成比で割り付けた場合、サンプルサイズのイメージとしては、例えば、このように、年代によりサンプルサイズ が大きかったり小さかったりします。
サンプルサイズ を比較すると、20-30代は、均等割付の方がサンプルサイズ が大きいので、20-60代の購入率は、実態よりも20-30代の回答の比重が大きく出ていることがわかります。一方、40-50代は、均等割付の方がサンプルサイズ が小さいので、実態よりも40-50代の回答の比重が小さくなった結果となっています。その結果が、購入率40%となっているので、これを20-60代の傾向とすることはできないのです。
このように均等割付では、市場全体の傾向を把握はできないということがわかりました。しかし、均等割付でデータを回収した場合にも市場構成比に補正できるという集計方法があります。それが、「ウエイトバック」なのです。
ウエイトバックの具体例
改めてになりますが、ウエイトバック(WB)とは、「アンケート調査の回収データを、母集団の構成比で補正して集計すること」をいいます。これにより、均等割付で各項目のサンプルサイズ を十分に確保した上で、WBをかけて集計し、分析することが可能となります。それでは、具体的にどのようにWBを行うのかを見ていきましょう。
WBの集計には、まず、回収データのサンプルサイズ とその構成比を確認します。今回、回収データは、均等割付を例にするので、構成比は均等に20%ずつとなります。
次に母集団構成比を並べます。母集団の構成比は、今回の場合、年代になりますので、国勢調査などの政府統計サイトから人口データを取得し、算出することができます。この構成比が、母集団、つまり国内の20~60代の日本人の各年代の構成比となります。
そして、この「母集団構成比の割合」を「回収データの構成比の割合」で割ったものがWB値となります。このWB値を元の回収データのサンプルサイズ にかけるとWB値での補正後のサンプルサイズ が算出されます。これにより、均等割付でデータを回収した場合でも市場全体の傾向も把握することができます。
以上がWBの解説になります。