様々な平均を使い分けよう(相加平均、調整平均、幾何平均)

  • 2022年4月16日
  • 2024年8月30日
  • 統計学

訪問者数や購入率の平均など、マーケティングなどの仕事をしていれば必ず使う「平均(平均値)」。私たちが普段使うのは「算術平均」というもので、実は、ケースによって違う算出方法で平均を求める必要があります。この記事では、様々な平均のまとめと特に業務でよく使われる3つの平均について詳しくご紹介します。

様々な平均のまとめ

平均の種類として代表的なものをまとめると次のようなものが存在します。(ここに記載以外にもありますが、一般的に業務上使われそうなものでまとめています。)

平均の種類特徴
算術平均(相加平均)総計をデータ数で割る馴染みが最もある平均(外れ値の影響を受けやすい)
調整平均(トリム平均、刈り取り平均)外れ値がある場合などにデータの大きい方、小さい方から一部を除外して求める平均
調和平均比率の平均。時速の平均や機械学習における分類問題の評価として扱われるF値(適合率と再現率の平均)などで用いられる。
幾何平均(相乗平均)倍率の平均。平均成長率や複利計算で使われる。
移動平均季節変動など一定の周期を持つものに対して扱えわれる平均

この記事では、マーケティングでの業務にもよく使う3つの平均について見ていきます。

最もよく使われる算術平均(相加平均)

私たちが普段馴染みのある総計をデータ数で割って求める平均です。シンプルで扱いやすい算術平均ですが、その弱点は、外れ値の影響を大きく受けてしまうことです。例えば次のような11人の年収の分布があったとします。平均値は515万円となりますが、全データを小さい順に並べてちょうど真ん中に当たる中央値で見ると300万円と乖離があります。これは、右端の3000万円という外れ値により算術平均が高く算出されてしまっていることに起因します。このように算術平均は外れ値に影響を受けるという性質があります。

このような分布のデータの場合には、データを表す代表値として中央値を用いる場合が多いですが、中央値のデメリットは、平均値と違い、全てのデータを考慮した値ではないということです。そのためデータとしての情報はかなり少ないといえ、データの特徴を中央値だけで表すということは十分ではないと考えられています。そこで扱われるのが「調整平均」です。

一部の極端なデータを除いた調整平均(トリム平均、刈り込み平均)

算術平均では外れ値の影響を受けやすい。そこで登場するのが、一部の極端なデータを除外して算術平均を出す調整平均(トリム平均、刈り込み平均)です。例えば「5%調整平均」の場合、データの小さい方から、大きい方から、それぞれ5%までを除したデータの平均値となります。

先ほどの11人の年収データも外れ値である3000万円の人を除くと、平均値は267万円となります。

倍率の平均を表す幾何平均(相乗平均)

例えば平均成長率などを求める際に幾何平均を用います。なぜ算術平均ではいけないのか、具体例をもとに見て行きましょう。

例えば、2019年に年間の売上高が1000万円、2020年に1500万円、2021年に4500万円に成長したビジネスがあるとします。2019年→2020年では成長率が1.5倍、2020年→2021年では3.0倍となります。このような場合に成長率の平均を算術平均と幾何平均で求めると下図のような結果となり、算術平均では、正しい結果となりません。そのため倍率の平均を求める場合には、「幾何平均」を用いるようにしましょう。

幾何平均の次のような公式となり、平方根(ルート)を用いるため、少々慣れない計算となりますが、ルート付きの計算機やエクセルでもSQRT関数を使えば求められます。