この記事では、データのバラツキを表す指標として、偏差、分散、標準偏差について解説していきます。統計学において非常に重要な指標となりますので、しっかりと理解していきましょう。
偏差とは
こちらのイメージを使って説明をしていきます。X1~X5の5つの値と真ん中に引かれている線は5つの値の平均と捉えてください。平均を表すときはこのようにXの頭に「ー(バー)」を記載する表現が用いられます。
この平均を基準として各値との差をバラツキとして表したものが偏差になります。
平均との差がプラスであるものを赤い棒で、差がマイナスになるもの、つまり平均よりも小さい値のものを青い棒で表しています。
偏差を式の形で表すと「xi – x(バー)」になります。各値iには、x1~5の値が入るという意味です。各値からx(バー)の平均を引いた値が偏差となります。
分散とは
次に各値と平均の差を元にデータ全体のバラツキについて表していきます。そのとき用いるのが分散になります。分散は、偏差の2乗の平均値となります。
これは何をしているかというと、データのバラツキの平均値を出しています。つまり、X1の偏差、X2の偏差・・・を全て足して、データ数の5で割ることでデータ全体の散らばり度合いを散らばりの平均でを出しているのです。
ここでポイントなのが、各偏差を2乗をして足しているという点です。その理由は、こちらの図にもある通り値によってはマイナスになる偏差もあるため、2乗することで、偏差がプラスであろうとマイナスであろうと平均からの差分、イメージとしては距離を足して平均が取れるようにしています。これを式の形で表すとこのようになります。
Σ(シグマ)は総和を意味し、iが1からn、今回はデータが5つなので、5までのXの値を全て足しあげるということを意味しています。この部分は偏差にあたるのでこれは各値の偏差の二乗を全て足しあげて、nつまり5で割った平均値を意味しています。
標準偏差とは
しかし分散には1つ問題点があります、それは、2乗をしてしまっていることで、元の値の単位とは異なっているという点です。どういうことかというと例えば、このXの値が身長の値だとします。身長なので例えばX1が170cmという値だったとします。2乗をすると170cm ✖️ 170cmで28900cm2と異なる単位になってしまいます。
そのため、単位を元のものに戻すために平方根(ルート)を取ります。それが標準偏差になるのです。
動画解説
こちらの記事の内容は下記の動画でも学ぶことができます。よろしければご視聴ください。