この記事では、こちらの記事で解説をした量的変数の別の分類について説明をします。まずは、離散変数と連続変数についてです。
離散変数と連続変数
離散変数
離散変数とは、簡単にいうと「間に値を取らない数値」です。例えば、「コインを5回投げて表が出る回数」といった、結果が「1回」や「2回」といったとびとびの値を取る変数です。
連続変数
一方、連続変数は、「間に無限に値がある数値」のことをいい、例えば、身長や体重が連続変数に該当します。実際、身長は「160.5cm」などのように測定されますが、値としては、「160.52」や「160.526」のように無限に小数点を取り得る値なので連続変数となります。
2つをグラフで表現すると次のようになります。
離散変数は、このようにとびとびの数値になるので棒状のグラフで表すことができます。一方、連続変数は、値が連続している、つまり数値の間と間に無限に取りうる値があるので、このように連続した線状のグラフで表されます。
多変量データ
多変量データとは、多数の変数を同時に考慮するデータのことをいいます。例えば、身長の測定結果を縦に、体重の測定結果を横にして散布したこちらのようなイメージのグラフのデータをいいます。こちらのグラフの場合は、2つの変数が考慮されているの2次元データと呼ばれます。
パネルデータ、時系列データ、クロスセクションデータ
次にパネルデータ、時系列データ、クロスセクションデータの3つについてです。
パネルデータ
パネルデータとは、「同じ標本から継続的に取得したデータ」のことをいい、例えば、「2019年から毎年同じ対象者に実施しているアンケート調査」などです。
時系列データ
時系列データは、「時間で変動するデータ」のことをいい、例えば、毎年の世帯年収平均の推移などが時系列データに当たります。
クロスセクションデータ
最後にクロスセクションデータは、「ある時点の複数の項目を集めたデータ」のことで、例えば、「2020年の世帯数、世帯年収平均、個人年収平均のデータ」などのように2020年時点の複数の項目のデータのことを示します。
以上のことを図で表すとこのようなイメージとなります。
まずパネルデータがアンケート調査全体のことを指し、時系列データはある項目において2019年から2021年までを時系列にみた横串のデータです。そしてクロスセクションデータは、2020年時点の複数の項目を縦串にみたデータを指しています。
動画解説
こちらの記事の内容は下記の動画でも学ぶことができます。よろしければご視聴ください。