データ収集の軸を決める

参考資料:
データ解析の実務プロセス入門

著者:あんちべ

出版社: 森北出版

データ解析の軸

データ解析の軸の決め方

データを集める際には、まずデータ解析で何を知りたいかを決める必要があります。
知りたいことが決まったら、それを基にデータ収集の軸を明確にしましょう。
ここでいうデータ収集の軸とは、データなどの要素を比較するのか決める軸です。
データ解析は、基本的に何かを比較することによって対象の特徴や傾向を明らかにします。
軸としてよく採用されるのは、時間、空間(地理)、 商品やサービスです。
軸は一つではなく複数用いることもあり、互いに独立ではないものを組み合わせる場合もあります。
例えば、先月と比べて今月の売上が低下したという場合は、 時間を軸とした時系列データを集める必要があります。
時系列データから今月と先月で何が変わった要素はないかを見出すことで、売上の減少要因を探ることができます。
どの売り場や店舗、地域だと売上が良いかを知りたい、あるいは売上が悪いのかの要因を知りたい場合は、空間・地理という軸に幸沿ってデータを集めます。
どの商品が良いかを絞りたければ、商品を軸に各要素のデータを集めることによって、売れている商品にはあって売れていない商品にはない要素とは何かを洗い出すことができます。
このように、まずは何を知りたいかという目的に応じて収集すべき軸を決めると、具体的に何を収集しなければならないかが明確になります。

データ取得時のバイアス

「なぜデータを用いて意思決定するのか」という問いに対する答えとして、「データは客観的な真実であり、人間の思い込みや主観が混ざらないからである」という主張を見かけることがありますが、それは必ずしも正しいとは言えません。
データはあくまで現実の一側面を切り取った事実でしかなく、真実ではありませんし、場合によっては客観的ですらありません。
あくまで調査手法や調査対象によって取得されたデータは決まってしまうので、取得されたデータそのものが実社会の実態を表しているとは言えません。

例えば、個別にヒアリングする形式でアンケート調査をする場合、その調査は駅前で行うとします。
すると駅にくるような人の意見しか取得できません。
では、家に訪問して聞き取りを行えば良いのでしょうか?
それでは、昼間にご在宅の方からしかデータを取得できません。

結局、 データには必ず何らかの偏りがあります。
データに偏りがあり実態とかけ離れていることを、データ解析では「バイアスがある」と表現します。
もちろん、 Web でのアンケートやサービス利用者のログを収集するためにおいても状況は同じです。

どのタイミングでどのような内容のログを出力するのかは、 誰かが何らかの目的に従って設計しなければなりません。
接近に漏れがあったり誤り・不備があったりすれば、必要なデータが揃わず分析手法を適用できない、あるいは誤った結果が出力されてしまいます。
ある一側面から飛び出したものだけで全体を語るときは注意が必要です。

参考資料:
データ解析の実務プロセス入門

著者:あんちべ

出版社: 森北出版