データ収集時の注意点

参考資料:
データ解析の実務プロセス入門

著者:あんちべ

出版社: 森北出版

データ収集作業時の大まかな注意事項

データの取得範囲と論理

データの取得範囲に関する重要な概念に、「 ポピュレーション」と「 ユニバース」の区別があります。
ポピュレーションは母集団から調査対象の変数だけを取得したものであり、ユニバースは母集団から調査対象に限らず様々な変数を取得したものです。

例えば、あるサービス利用者の購買予測分析を目的としたデータ取得をする時、サービス利用者の購買に関するデータの集まりだポピュレーションです。

それに対し、購買データだけでなく、サービス利用者の様々な情報を含んだデータ、極論するとサービス利用者にまつわる全データをユニバースと言います。

ポピュレーションの場合はその目的に直結したデータしかないため、他のデータで紐付けることができませんし、 他のデータ解析に取り組みたいと思った時に活用できないことがほとんどです。
分析のためには(さらに言えば余裕があるならば)ポピュレーションではなくユニバースを取得したいところですが、費用対効果を考えることが重要です。
あれもこれもと取得すればコストがかさみます。

また、ユニバースを取得する場合は、法や個人情報保護の観点も忘れてはなりません。

どの程度のデータを取得すべきかは、データ取得元との合意内容や目的によって変わってきます。
例えば、薬剤の販売となればアレルギー症状や現在服用している薬などの情報が必要になるかもしれませんが、 EC サイト(オンライン商店)で書籍を制限するためにそれらのデータを取得するのはやり過ぎでしょう。

確かに病歴データを取得しておけばそれに合わせてセラピーや医療関連の本を推薦できるかもしれませんが、果たしてそれらの便益のために病歴を入力してくださいと理容師に依頼すべきでしょうか。

これに関しては法の側面だけでなく、利用者の感情や情報漏えいリスクなども加味して考えるべきです。

費用制約と優先順位

基本的に、データはあればあるだけ分析の幅が広がります。

しかし、データ収集に際限なく費用をかけるわけにはいきません。
ここで言う費用とは金銭のみならず期間、どの程度までデータを収集するか、また、例えば実践演習招集初めて費用が想定を上回り出した時、 DOMO データの収集を諦めるかを決めておく必要があります。
そうしないと、 データの収集を諦めるかを決めておく必要があります。
そうしないと、仮にデータ解析がうまくいったとしても懐石で得られる数に比べて費用が大きくなってしまったり、無いよりマシという程度のデータを取ったがために真に必要なデータを取り逃がすような事態が起こり得ます。

参考資料:
データ解析の実務プロセス入門

著者:あんちべ

出版社: 森北出版