【統計学の基礎知識】度数分布やヒストグラムについて端的に解説

この記事では、統計学の基礎知識として、まず知っておきたい、度数分布やヒストグラム、更に関連する相対度数や累積度数について解説します。

度数分布(度数分布表)とは

度数分布とは、データの集まりの特徴を把握でき、階級と度数を整理したもののことです。

こちらの表は、あるクラスの得点と人数について度数分布をまとめた度数分布表になります。階級とは、データを区切る範囲のことで、ここでは、10点刻みの得点の範囲を指します。

度数は、データの頻度のことをいい、各階級のデータの個数を意味します。例えば、0点以上10点未満の人数は、1名ということがこの度数分布表から読み取れます。

ヒストグラムとは

そして、この度数分布をグラフ化したものがヒストグラムと言われるグラフになります。ヒストグラムはデータのバラツキを可視化したグラフとなります。

ヒストグラムを見れば、50以上60点未満の得点をとった人数が最も多いこと、またデータ全体の傾向が山型になっており、得点が小さい階級と大きい階級の度数が少ない傾向にあることが一目で理解できます。

ちなみにヒストグラムについて、棒グラフと似た印象を受けますが、棒グラフは、大小の比較を目的としたグラフになる一方で、ヒストグラムはデータのバラツキを把握することを目的としたグラフになります。そのため一見同じような側面をもちますが、例えば、このグラフで言えば、棒グラフからは「得点が40-50点の人よりも50-60点の人の方が多い」といった比較を読み取ることに使われ、ヒストグラムでは、「得点は40~70点で集中しており80点以上の人は少ない」といったデータ全体の傾向を読み取ることに使われます。

相対度数とは

次に相対度数について見ていきます。相対度数とは、各階級の度数を全体に占める割合で表したものになります。計算式で表すとこのようになり、その階級の度数を度数の合計で割った値となります。

例えば、0-10点の階級の場合、その階級の度数は1で度数の合計は83なので1➗83で0.012(ここでは小数点第3位以下を四捨五入して0.01とします)そして、相対度数の合計は1になります。

相対度数の利点は、データが多い時でも傾向が測れて、また度数の合計が異なるデータの比較もしやすいことにあります。例えば、左がA中学のテストの結果で、右がB中学の同じ内容のテスト結果だとします。2つの中学は合計人数が異なりますが、相対度数を見れば、例えば、A中学は、50~70点の階級でデータが集中していることがわかり、一方で、B中学はA中学よりも得点が低い、20~40点の階級でデータが集中していることがわかります。

このような形で相対度数で表すことで合計が異なるデータ同士の比較がしやすくなります。

累積度数(累積相対度数)とは

累積度数とは、特定の階級までにあるデータの数のことをいいます。こちらの表をもとにみていましょう。

累積度数は、度数の累積になります。つまり0−10点の人数は1人、10−20点も1人のため、0−20点の累積は2人となります。このように足し上げていき、最後は、合計値と同じとなります。もうひとつの累積相対度数も同様の考え方で、相対度数を足し上げていきます。0−10点は0.01、10−20点も0.01なので累積相対度数は0.02となります。最後は、1.00つまり%でいうと100%になります。累積相対度数を見れば、0.5に到達した、つまりデータのちょうど真ん中である50%に達したのがこの階級時点であることが一目でわかります。

累積相対度数をグラフ化するとこのようなイメージとなり、データがどのように分布しているか、特にどこまででデータの真ん中である50%に到達しているのかなどが把握しやすくなります。

動画解説

こちらの記事の内容は下記の動画でも学ぶことができます。よろしければご視聴ください。