データサイエンス基本編 | 知っておきたい!分類と主成分分析についてお勉強

分類とは

データを複数のグループに分けることです。
例えば、花を品種で分けるという課題が考えられます。
一本一本の花について花びらと顎の長さについてそれぞれの幅を測ったデータがあるとします。

実際のアヤメの花のデータ

これは実際のアヤメの花を測ったデータなのですが、花びらと顎のサイズを元に品種を分けるという課題が考えられます。
ここで例えば、クラスター分析という手法を使うと次のようなグラフを作成することが可能です。

このグラフはクラスター分析の一種であるデンドログラムと言います。
デンドログラムの一番下にあるのはデータに記された花のデータ番号になります。

クラスター分析ではよく似ている個体同士をまとめていくという処理を行うのですが、それを表しているのが縦の線です。
1,000でまとめられた固体またはグループはグラスの上に進むにつれより大きなグループに包括されていきます。
このグループのことをクラスターと言います

また、分類に応用できる手法として主成分分析があります。

主成分分析とは

主成分分析ではデータを圧縮するという技法が使われます。
アヤメのデータであれば、花びら、それぞれの長さを測ったデータがありました。
つまり、個体ごとに4つの数値が計測されています。
この4つの数値を圧縮して、1つor2つにまとめることで、個体間との関連性をより鮮明にしようというのが主成分分析の方法です。

バイプロットで描く主成分分析

ここで縦軸と横軸は4つの計測データを圧縮した値を表しています。
バイプロット上にある矢印は各変数の傾向を指し示しています。
左右が第一主成分を表しており、Petal.Length(花弁の長さ)・Petal.Width(花弁の幅)はほぼ同じ方向に矢印が伸びています。

一方でSepal.Length(顎の長さ)・Sepal.Width(顎の幅)の矢印は下の方を向いており、この矢印の周辺の花のデータ番号は顎の長さと幅が大きいことが確認できます。

このように、一枚の図で視覚的に個体ごとの分類がうまく行われていることが理解できます。
これまでのアヤメのデータでは「品種」という分類すべきグループが分かっていました。

しかし、事前にグループを想定せずにデータの特徴に基づく独自に分類を行いたい場合もあります。

例えば、レストランでインド料理をセットにして提供したいとします。
レストランではお客の属性。つまり、性別・年齢などと注文をデータとして持っていたとします。

ここから若い女性が好んで注文する料理。あるいは、年配の男性が注文しがちな料理がないか?顧客の属性ごとに料理をすることができれば、セットメニューの構成の参考になりますよね。

最近では、機械学習と呼ばれる領域でさまざまな分類手法が提案されています。
これは近年の利用可能なデータ量の増加によってコンピューターでの計算に負荷がかかり、精度を上げにくい。という問題を克服できる手法です。
身近な活用事例としてはメールの内容からスパムかどうかを判定する機能が多くもメールソフトに付随していますが、これはナイーブベイズ分類器と呼ばれる機械学習の手法が取り入れられています。

Follow Twitter Facebook Feedly
SHARE