この記事では、マーケターをはじめ多くのビジネスパーソンにとって身近な「アンケート調査」を題材に、統計学の基礎である「区間推定」の概念を理解していきます。
※この記事の内容は、こちらの動画講座でも学ぶことができます。
点推定と区間推定
例えば、次のようなケースで考えてみましょう。あなたは、あるサービスの販促を担当するマーケターだとして、担当サービスのターゲットである30代男性の認知度を測るためのアンケート調査を行いました。
調査会社のパネルを使って、30代男性200名に対してサービスの認知を聞いたところ、「標本の比率」である認知率は30%という結果が出ました。
この結果をもとに私たちは母集団、今回でいうと全国の30代男性の認知率がこれくらいだろうと推定するのです。
その際に「手元のデータが30%なんだから、本当の認知率も30%だろう」とピンポイントで推定することを点推定といいます。
ただ200名に調査した結果で本当の認知率も30%だ、とするのはやや強引な印象です。そこで誤差を加味して「本当の認知率は23.5%~36.5%の範囲に収まるだろう」と幅、つまり区間で推定をします。これを「区間推定」といいます。
母比率の区間推定(標本比率の特性)
アンケート調査の結果から認知率30%つまり標本比率は0.3という結果になりました。しかし、私たちが知りたいのは、標本データの認知率ではなく、本当に知りたいのは、母集団である30代男性の認知率です。
でも、私たちには標本のデータしかありません。そこで、標本データの結果をもとに確率論を用いて母集団の認知率つまり母比率を求めます。これが推定です。今回は、区間推定なので、この0.3という比率の結果に対しての誤差がどれくらいあるのかを推定して、どの区間に本当の認知率があるのかを確率をもとに求めていきます。
それでは確率論でどう母比率が含まれる区間を求めていくのかを説明します。
先ほど、200名のアンケート調査を実施したら認知率は30%という結果でした。実際だと調査は一度しかしないのですが、仮にこの200名をランダムに抽出して・・・という調査を何度も繰り返し実施したと仮定します。
例えば、2回目の調査では 標本比率は0.27、3回目の標本比率は0.33・・・4回目はもしかしたらまた0.3となるかもしれません。
この結果を横軸に標本比率(認知率)、そしてそれぞれの標本比率(認知率)の発生確率を縦軸にとります。
すると、認知率30%つまり標本比率0.3という結果はこれくらいの確率、0.27という結果はこれくらいの確率、0.33という結果はこれくらいの確率で発生するとプロットがされていきます。(少しややこしいので補足ですが、例えば、100回調査を繰り返して、認知率が30%つまり標本の比率が0.3という結果が40回だった場合は、発生する確率は40%となります。)
これを続けていくとこのように綺麗な左右対称の山の形状に近づいていきます。このような形状の分布を「正規分布」と言います。
今回、標本の大きさは200ありますが、統計学の世界では、標本の大きさが十分に大きいとき(一般的には30以上と言われていますが)、母集団がどんな分布なのかによらず、標本比率の分布というのはこの正規分布に従うというものすごく便利な特性があります。
また、標本比率の正規分布では、中心が標本比率の平均値となり、なんと、これは私たちが知りたい母集団の比率である母比率に一致するという性質を持っているのです。
ここからこの正規分布の性質をもとに母比率が含まれる区間を計算して求めていきます。
ここまでのまとめ
ここまでを一度まとめます。
私たちは30代男性の認知率つまり母比率が知りたいという動機があります。全部調査はできないから標本として200名を抽出して調査をしました。
その結果、30%という認知率の結果が得られました。でも本当に知りたいのは母比率なので、この標本データをもとに母比率を確率的に求めよう。(つまり推定しよう)とします。
今回nは200で標本のサイズが十分に大きいので、統計学の理論上、
・標本比率は正規分布に従う。
・標本比率の平均は母比率に一致する。
という性質が使えます。ここまでをみてきました。
そしてここからこの正規分布の性質をもとに母比率が含まれる区間を計算して求めていきます。
正規分布の特性
正規分布に従うということがわかることで何が良いのか?それは、どの範囲に何%のデータが含まれているのかがわかるということです。
正規分布は確率密度という面積で確率が表されています。そのため正規分布の全体で確率が100%となります。そして中心から左右対称に離れたこの範囲がデータの95%をカバーしています。
統計学の世界では慣例として「起こりやすい」確率として95%が使われますが、100回中95回起こる事象が「起こりやすい」というのは私たちの感覚的にも納得ができるかと思います。
この95%という区間の境目となるこの地点は、分布の中心から「標準偏差」、約2つ分離れている地点であることが正規分布の性質上わかっています。(標準偏差とはデータのばらつきを示す指標のことで、分布の形状を決定する変数となっています。)
この性質により、95%の区間をこのように表すことができます。左側の地点は、母比率から標準偏差約2つ分をマイナスしたところ。右側は、母比率から標準偏差約2つ分プラスしたところになります。
これを式で表すとこのようになります。
初見だと少し小難しそうに感じるかもしれませんが、1つ1つを分解して把握すると難しくはありません。pというのは母比率を表す記号です。
この母比率pが先ほど確認をした「母比率pー標準偏差約2つ分」と「「母比率p+標準偏差約2つ分」に挟まれているという式になります。
標準偏差は、「n分のp(1−p)ルート」、標本比率の正規分布の場合、標準偏差はこのような式で表されます。この標準偏差が2つ分なので「2✖️」となります。
補足になりますが、便宜上、標準偏差約2つ分としていますが、厳密には標準偏差1.96こ離れた地点が95%区間になります。計算を簡略化するために「標本誤差早見表」などでは2つ分で計算がされていることが多いです。
このような式で表すことができますが、この式ではそもそもpの値がわからないので区間を求めることができません。
そこで私たちが今わかっている標本比率0.3という値を使って、これが母比率だったと仮定して一度このように分布の中心に置いてしまいます。そうするとこの母比率pのところが0.3を代入することができ、これを計算するとこのようになります。
区間推定の結果、母比率pは0.235~0.365の間に含まれると求められました。
信頼区間95%の意味
前回のレクチャーで区間推定がどのように求められているのかを理解しました。このレクチャーでは、信頼度95%の意味について解説をします。
結論、「信頼度95%」とは区間推定を100回したとき、95回は、その区間が母比率を含む。という意味でイメージとしては、区間推定の精度のようなものです。
具体的に説明します。例えば標本調査をして標本比率が0.3という結果だった時、区間推定をすると0.235~0.365という区間が求められました。実際の母比率は0.3ではなくこのようにずれていたとしますが、この場合、推定した区間に母比率は含まれています。
次にもう一度同じように標本を抽出して区間推定をして今度は標本比率が0.33という結果でした。区間推定すると0.265~0.395となり、これも母比率を含んだ区間です。
次に標本比率が0.38だったとき、区間推定をすると0.325~0.445となりました。これは、母比率を含みませんね。
このように「標本の抽出と区間推定を繰り返して行った結果、100回中95回、母比率を含む」という状態を信頼度95%といいます。
よく誤った表現の仕方の例で「0.235から0.365に母比率が含まれる確率は95%である。」といっているものがありますが、これは誤りです。
この表現だと、0.235から0.365という区間が決まっていて、母比率が変動するような説明になっています。逆ですね。母比率は定まった値で決まっているものなので変動しません。変動するのは区間で、先ほど説明した通り、区間推定を100回して95回、母比率を含んでいると言う意味です、この違いについて理解をしましょう。