標本誤差(サンプリング誤差)とは?標本誤差早見表の見方についても解説

統計学

この記事では「標本誤差」について解説をします。標本誤差について知ることで、定量調査の設計や結果を正しく読み取ることにつながるのでぜひ理解をしていきましょう。また、標本誤差について説明をするにあたり前提として標本を使った調査の基本的な知識も抑えていきます。

標本誤差とは?

私たちが普段実施する定量調査は、調査会社のパネルという標本データをもとに行っています。例えば30代男性の認知率を把握するために調査を行うとします。定量アンケート調査を実施して、次のような結果が出ました。

本来であれば全国の30代男性の認知率を知りたいのですが、全員にアンケートをすることはできないため、30代男性を調査会社のパネルから200名をランダムに抽出してその200名という標本に対して聞いた結果、認知率が30%だった。という結果になります。しかし、今回得られた30代男性の認知率30%という結果は、標本の比率であり、母集団の比率との間には必ず差が生じます。この差のことを「標本誤差」と言います。

標本誤差はサンプルサイズの大きさによって変動します。その関係をまとめたのが「標本誤差早見表」になります。

標本誤差早見表の見方

それでは、標本誤差早見表の見方について解説していきます。標本と母集団の値の差が標本誤差でした。そして標本誤差はサンプルサイズによって変わります。その関係をまとめたのが「標本誤差早見表」になります。

例えば今回の場合、サンプルサイズが200で、サービスの認知率が30%でした。なので早見表をもとに標本誤差を確認すると「6.5」つまり標本誤差は±6.5%となります。

つまり今回のアンケート調査の標本から出た認知率30%という結果は、±6.5%なので23.5~36.5%の範囲で「本当の認知率」つまり母集団である全国の30代男性の認知率に対して誤差を伴う。ということになります。そしてこの早見表は「信頼度95%」なので、「95%の確からしさでこの誤差が伴う」ということになります。

標本誤差早見表をもとに適切なサンプルサイズを考えよう

今回はサンプルサイズが200なので標本誤差が±6.5%を伴うことがわかりました。ここで少し考えてみてください。誤差の大きさにより認知率の計測においてどんな懸念が予想されるでしょうか?

サンプルサイズが200のとき、先ほど標本誤差早見表で確認したように10月度の調査結果である認知率30%には±6.5%の誤差を含んでいました。4月度の調査結果では同様に200のサンプルサイズで27%の認知率という結果でした。誤差の範囲はこのようになります。

この誤差を見ると、もしかしたら今回たまたま4月の方が認知率が低く出ていた可能性が高く、本当に3%認知率が上がっていたのかは疑わしいです。このように誤差範囲が大きいと特に認知率のような時系列で定点的に変化を追っていくような指標には結果の解釈に影響が出てしまう恐れがあると言えます。また、単純に認知率が20%強なのか30%後半なのかで差が大きいので、母集団の実態を把握する上では誤差は小さい方が良いと言えます。

(※この27%と30%という結果が統計的に有意、つまり意味のある差のか偶然なのかを検証する手段として仮説検定という手法がありますので、それはこちらの記事を参考にしてください。)

サンプルサイズを決定する基準としては、誤差は±5%以内に抑えように400が最低ラインとされることもありますし、認知率のような重要性の高い指標であれば、できるだけ誤差が小さくなるようサンプルサイズを大きく設定しておくことをお勧めします。サンプルサイズは調査費用の増減に影響するので最終的には調査予算とも照らし合わせて判断してきましょう。

タイトルとURLをコピーしました