そもそもデータとは何か!?

参考資料:
データ解析の実務プロセス入門

著者:あんちべ

出版社: 森北出版

目的に応じて過不足ないデータを集めよう

データの定義とデータ解析の因果関係

データ解析において、データとは対象の情報を定められた規則に従って数値や文字列に落とし込んだものです。
ある人物のデータを取得する場合、身長や体重、年収や性別、本の所蔵数やテストの点数などの情報を数値を文字列に落とし込むことが考えられます。

対象からデータを取る際、まず行うのはデータの定義と計測方法を決めることです。
身長や体重などは明確な定義が計測方法があるため簡単にデータが取れますが、 頭の良さや Web ページの綺麗さなどの、明確な定義や計測方法がないものをデータとして扱うのは困難です。

頭の良さはテストで測ることができそうですが、国語のテストをするのか数学のテストをするのかでその人の評価を大きく変わります。
各種目の合計点を頭の良さにするというのは一見良さそうな方法ですが、例えば、国語の点数と数学の点数を同列に並べるのは違和感があるでしょう。
そもそも頭の良さの定義が曖昧です。
定義が曖昧であれば計測することはできません。

データの定義をする場合の注意事項

データの定義をする場合、 データ解析の目的に応じて適切な定義をすることが重要です。
先ほどの「頭の良さ」を例にとると、「頭のいい人の方が仕事できそうだから頭の良さを採用基準にしよう」などという漠然として目的では、一体何をどう継続して判断すれば良いのか分かりません。

しかし、「英語でのコミュニケーションが必須の業務なので、英語能力のある人材を雇用したい」というような明確な目的があるなら、 英語能力を測定するテストを実施することが考えられます。

さらにもっと詳細に、ビジネスコミュニケーションと趣味英語能力なのか日常会話としての英語能力なのか、あるいは文章の翻訳業としての英語能力なのかによってもさらに細分化するべきでしょう。

このように、データを作る際には目的に応じて適切な定義と計測方法を決める必要があります。

何をどの程度集めるべきかもまた、目的によって異なります。
ある人物に関する情報は先ほど挙げた身長や体重だけではありません。
住所や年齢、世帯構成や最終学歴、好きなキャンディの種類やお気に入りの散歩コースなど、考え出したらキリがありません。
健康管理のためであれば体重や血圧などのデータは必須ですが、 書籍推薦サービスにそのようなデータは必要ありません。

目的に応じて過不足なくデータを集める必要があります。
どのデータが必要かを考えるには後ほど説明するデータツリーをする利用するのが良いでしょう。

参考資料:
データ解析の実務プロセス入門

著者:あんちべ

出版社: 森北出版