解析を成功に導く「良きデータ」 とは!?

参考資料:
データ解析の実務プロセス入門

著者:あんちべ

出版社: 森北出版

データを得るための方法論こそが重要であり、データさえ良ければ後の解析は自明である
―C.R.ラオ

良きデータこそが良きデータ解析の要です。

良い情報を含むようにデータを定義

その後の分析手法の適用がデータ解析の成功に与える比重は、 データの良さに対して微々たるものです。
今回は良きデータとは何か、 良きデータを生むにはどうすれば良いかについて説明します。

食材がなければそもそも料理をできません、良い食材がないとどう料理しても美味しくなりません。
データ解析も同じで、データがないと分析できませんし、目的に沿わない不適切なデータを分析しても価値は得られません。
データ解析とは、データに含まれている有益な知見を抽出するという行為であって、そもそもデータの中に有益な知見が含まれてなければ意味がありません。
「不適切なデータでもリアルタイムで多様かつ大量に集めれば、突然化学変化を起こして価値が出てくる」というような錬金術はありません。

昨今、大量にデータを集めて処理しようという「ビッグデータブーム」なるものがありますが、これはあくまで大量にデータを収集できるシステムやインフラが比較的安価に整えられるようになったために、個別にデータとしては有用性が低くても、これまで困難だった大量データの紐付けができるようになったおかげで分析の幅が広がったという意味です。
有益な分析をするためには、出来る限り宝を多く含み、なおかつノイズの少ない良いデータを収集するよう努めてはなりません。
良い情報を含むようにデータを定義した上で分析を行うことにより、初めて有益な知見が得られます。

データは作るもの

良いデータについてもう一つ重要なことは、「データは作るもの」だということです。
昨今、多様なサービスがデータを出力する機能を提供していたり、集計済みのデータを公開していたりしますが、それらはデータ提供では各データ解析者の目的に沿って出力してくれているわけではないため、データの取捨選択や加工が必要です。
また、分析用に提供されていないが分析に使える情報、たとえば商品販売サイトの掲示板の口コミからも、取得・加工することによって販売されている商品のどこが良いとされ何が改善ポイントなのかを知ることが可能です。
データは落ちている・拾うものではなく作るものです。
その作り方によってデータを有益にも無益にもなるということに注意が必要です。
以上で述べたように、分析する際は良質なデータが必要です。
しかし、そもそも良質なデータとは何でしょう?

目的によって良いデータが意味するところは全く異なるでしょう。
良きデータが欲しいとはいっても、各々の目的に沿ってデータとはどのようなものかが明らかでなければ、入手するのは難しいでしょう。

ではどう入手するか、良いデータの設計方法はこちらの記事のプロセスの3.データ設計、4.データ収集・保存、5.データの前処理に対応しますので参考にしてください。

参考資料:
データ解析の実務プロセス入門

著者:あんちべ

出版社: 森北出版