仮説検定において重要なサンプルサイズ。必要以上に大きいと有意に差が出やすくなってしまう一方で逆に小さすぎると本来有意な差も検出されなくなってしまいます。そんな重要なサンプルサイズを決定する要素は次の3つです。
- 有意水準
- 効果量
- 検出力
これらとサンプルサイズの関係性については、なかなか想像しにくいため、できるだけわかりやすくなるように図解をもとに整理しています。
第1種の過誤、第2種の過誤について
まず仮説検定における第1種の過誤、第2種の過誤、検出力などについて基本情報をまとめます。
<第1種の過誤、第2種の過誤について>
第1種の過誤:実際はH0なのにH1と予測してしまった
第2種の過誤:実際はH1なのにH0と予測してしまった
<検出力について>
検出力:H1と予測して実際にH1だった
有意水準とは
有意水準とは、その名の通り、有意差があると判断する基準のことです。有意水準>p値(p = probaility: 確率)となったときに「有意差あり」となります。有意水準は慣例的に特別な理由がない限り0.05(5%)とすることになっています。有意水準5%に対して、p値(確率)が下回るということは「100回中5回以下の稀なことが起きた確率」と言えます。
効果量とは
検出したい差のことです。仮説検定を行う際は、有意水準(α)の結果をもとにその仮説が有意かを判断しますが、サンプルサイズが増えると有意になりやすくなります。効果量は、サンプルサイズに依存せずに効果を測る指標として使われます。統計的に有意な差であるかに加えて、「その差はそもそも意味がある差か?」を考慮する必要があります。例えば、サンプルサイズが1万を超える状況で広告とAとBのクリック率の差が0.1%だったときに統計的には有意な差ではあったものの、0.1%程度の差では、広告AでもBでもビジネスインパクトは変わらない。という結論になってしまいます。
検出力とは
前述の通り、「H1と予測して実際にH1だった」ときの確率です。通常、検出力を0.8に設定します。これは「有意差があるときにそれを正しく検出できる確率が80%である」ということを意味します。
サンプルサイズと各パラメータの関係性
それではここから有意水準、検出力、効果量の3つとサンプルサイズの関係性について見ていきます。各要素との関係性をわかりやすくするために、ここでは、対象となる要素以外の2つの要素については変化させないという前提でサンプルサイズを増やす必要があるのか、減らす必要があるのかをまとめています。
<有意水準を上げた→サンプルサイズを減少させる>
図の通り、有意水準を5%から10%に上げると、サンプルサイズを減少させて、山の形を平らにすることで他の2要素である効果量と検出力をキープすることができます。
<検出力を上げる→サンプルサイズを増やす>
検出力を上げた場合は、図の通り、サンプルサイズを増加させて山を突にすることで効果量と有意水準をキープすることができます。
<効果量
<効果量を上げる→サンプルサイズを減少させる>
効果量を上げると山の距離が離れるため、サンプルサイズを減少させて山を平らにすることで有意水準と検出力をキープできます。
サンプルサイズとの関係性のまとめ
以上の関係性をまとめると次のようになります。結論、サンプルサイズの増減と同じ動きをするのは検出力だけと覚えると覚えやすいでしょう。