四分位数とは?範囲の求め方や箱ひげ図との関係についても解説

統計学

この記事では、データの分布を把握するために用いられる四分位数やグラフとして可視化した箱ひげ図について学んでいきます。

四分位数とは?

データを小さい順に並べて四等分に区切ったものを四分位数(しぶんいすう)といいます。データの度数は25%ずつに分けられ、左から図のような名称が付けられています。

・最小値
・25%時点:第1四分位(Q1)
・50%時点:第2四分位(Q2)※ちょうど真ん中を意味する「中央値」と同じ
・75%時点である第3四分位(Q3)
・最大値

この5つの地点を5数要約といいいます。

具体的な数値を使ってみていきましょう。ここに11個のデータがあります。まず、これを小さい順に並び替えます。このとき、最小値が1、最大値が20となります。ちょうど真ん中にあたる10が中央値=第2四分位(Q2)になります。

残り第1四分位(Q1)と第3四分位(Q3)についてみていきます。まず中央値を基準にデータを分けて考えます。前半のデータの真ん中の7が第1四分位、後半のデータの真ん中の14が第3四分位となります。

範囲、四分位範囲とは?求め方も解説

この5数要約を用いて表せるデータのバラツキの尺度についてみていきます。

まず、データのバラツキを表す尺度として、「範囲」というものがあります。求め方は、最大値から最小値を引いた値となります。範囲は値が大きいほどデータが高域でバラついていることを示しています。

次に「四分位範囲」です。四分位範囲は、英語で 「Inter Quartile Range」と言い、略して「IQR」といいます。求め方は、Q3からQ1を差し引いた値となります。具体的な数値でみてみましょう。

範囲は最大値と最小値の差分のため、20−1=19が範囲となります。

次は四分位範囲です。

四分位範囲はQ3とQ1の差分のため、14−7=7になります。

これらの数値をもとに差分が大きいほどデータのバラツキが大きいことを示し、簡単にデータのばらつきを比較することができます。

四分位数を可視化した「箱ひげ図」とは?

「箱ひげ図」とは、ヒストグラムと同じでデータの分布を把握するのに用います。見た目通り、箱と長い髭のような線で表されていることから箱ひげ図と呼ばれています。

先ほどのデータを用いるとこのように表されます。5数要約と平均値がこのように一目で把握できます。

また、箱ひげ図はヒストグラムと並列して表すこともあります。こちらはヒストグラムの形状と箱髭図を対応させたイメージとなります。

このようにヒストグラムが左に偏った形状をしている場合は、箱ひげ図は、数値を小さい値から順に並べて、ちょうど真ん中のデータである中央値が左寄りに位置し、右側の髭が長くなります。
中央にきれいに山形になっている左右対象のヒストグラムの場合は、箱ひげ図も中央値が中央に来て左右対象になります。
そして山が右寄りのヒストグラムは箱ひげ図も右寄りになっています。

動画解説

こちらの記事の内容は下記の動画でも学ぶことができます。よろしければご視聴ください。

タイトルとURLをコピーしました