データの標準化とは?代表例「偏差値」の求め方も解説

この記事では、統計学で頻出する「標準化」について解説します。

標準化(基準化)とは?

標準化(または基準化)とは、異なるデータ同士を比較する方法で、標準化の代表的な例は、学生時代によく使った「偏差値」になります。偏差値は次で解説をしますが、例えば数学と英語のテストなど異なる科目同士でも偏差値で比較することで、どちらのテストの結果が良かったのかを比較することができます。このように異なるデータ同士を比較できるのが標準化となります。

標準化の計算方法

標準化の方法ですが、偏差を標準偏差で割ることでデータを標準化することができます。標準化されると、そのデータは全て平均値0、標準偏差が1のデータになり、これを「Z値」や「Zスコア」と呼びます。

次に偏差値の例で見てみましょう。

標準化の代表例、「偏差値」を求めてみよう。

偏差値は先ほどお伝えした通り、標準化の代表例です。

課題としては、例えば数学や英語など、異なる科目のため、テストの難易度が異なるもの同士の比較が困難であるという課題がありました。その解決方法として、偏差値が用いられています。偏差値は、データを標準化し、更に平均を50、標準偏差を10になるように変換した指標となります。(標準化後にこのような処理をする理由は、0よりも50を基準に評価できるようにすることで、感覚的にもテストの点数を比較しやすくするためと言われています。)
計算式で表すとこのようの表されます。

例えば数学と英語のテスト結果をAさん、Bさん、Cさんの3名で比較するときに、「点数」だと、Aさんは数学が70点で英語が60点と数学の点数の方が高いので良い結果に見えますが、偏差値で見ると数学が62、英語が64なので、英語の方が結果が良いということがわかりました。

このように標準化を用いることで、異なるデータ同士の比較ができるようになるのです。

おまけ:「正規化」との違い

標準化と合わせて頻出する概念に「正規化」があります。正規化は、最小値が 0最大値が 1 になるように変換する処理のことを言います。

一般的に標準化を用いる場合は、最小値と最大値が決まっていない場合や外れ値がある場合に利用します。一方、正規化は、最小値と最大値が決まっている場合などに利用し、画像処理などに掛かる計算負荷を下げる事などに用いられます。

動画解説

事で解説した内容は、こちらの動画でも解説しています。よかったらご視聴ください。