主成分分析(PCA)とは? データをまとめて分析しよう。

統計学

主成分分析(Primary Component Analysis: PCA)とは?

何のためにあるか。要は、似ているデータ(相関があるデータ)があれば、データをまとめて、できるだけ少ない数のデータで表現してしまえばということ。データを要約すること(専門用語的には「次元圧縮」と言う。)

主成分分析をすれば、元の情報の特徴を失わない形でうまくデータをまとめることができる。身近な例でいうと「国語、社会」を「文系」。「算数、理科」を「理系」とする。みたいなこと。

主成分分析で情報をうまくまとめられることでビジネスにおいては次のような良いことがある。

マーケティングの例でいうとブランドイメージ調査をしたとき、たくさんの設問に対する回答結果があるが、主成分分析することで「総合的な評価」としてまとめられたり、主成分分析した結果からブランドイメージに影響が強い要素(変数)は何かを推測できたりする。

データサイエンス的な例でいうと、ビッグデータは多次元であることが多いので主成分分析を行うことで次元数を少なくしてグラフで可視化しやすくでき、人に説明しやすくなる。また、計算自体の負荷が軽減される。などなど。

主成分分析の流れ(仕組み、アルゴリズム)

  1. データの重心(平均値)を求める。
  2. 重心から分散が最大となる方向を求める。(第1主成分)
    ※分散しているということはすなわち情報量が大きいということ。情報量が大きいとは≒その情報の持つ情報が大事な特徴であるということ。逆に分散が小さいということは、似たり寄ったりで特徴のない、あまり大事な情報ではないということ。一番大きく分散している情報を一番特徴のある大事な情報として第1主成分とする。(主成分の分散のことを「固有値」とも言う。)
  3. 第1主成分と直行する方向に分散が最大化する方向を求める。(第2主成分)
    ※第1主成分と似た情報はもういらないので、直行する別の方向で分散が最大化する(情報量が大きい)方向を見つける。
  4. データの次元分繰り返す(第3,4主成分・・・と続く。)

※第3主成分(三次元)まである場合のイメージ

結果の見方(寄与率、累積寄与率、主成分負荷量、主成分得点)

主成分分析をすると次にのような指標が結果として得られ、第1主成分(総合的な評価)に対する重要な変数を発見したりすることにつながる。

寄与率その主成分のみで元データの何割の特徴を表せているか
累積寄与率第k主成分までで何割を表せているか。(通常8割説明できているなら十分)
主成分負荷量(因子負荷量)元の変数と各主成分との相関係数(大きいほど主成分をよく説明している)
主成分得点(スコア)各主成分を軸にしたときに座標となる値(下図参照)

<主成分負荷量(因子負荷量)>

<主成分得点>

タイトルとURLをコピーしました