ご存知ですか?データの数値の見方について

参考資料:
データ解析の実務プロセス入門

著者:あんちべ

出版社: 森北出版

データの数値の見方とは?

データの数値の見方とは、「誰が、誰向けに、どのような目的で、誰あるいはどこから、どのようにして、どのような取得期間(データの対象期間。例えば2014年9月1日から30日までのデータなど)を、いつ(取得タイミング)、どのような定義で取得したのか」という情報です。
データ解析は事実を元にして仮説を検証したり現状把握したりするものであり、その際に「データが事実を示している」と言えることが大切な前提となってきます。

そもそもデータが偏っていたり検証したい内容をと関係ないものであるならば、その上に積み上げられた議論は無意味になりますよね。
データが事実を示していることが保証できないような、数値の見方の分からないデータは利用すべきではありません。

誰が、誰向けに、どのような目的で、誰あるいはどこから

何らかの利害関係によりデータが歪められている可能性への考慮です。

ある食品に健康を害する成分が入っていないかを調べたデータがあったとして、それを作ったのがその食品会社であるならば、そのデータは「この食品には健康害する可能性がない」方が都合のよい人間によって作られたものだということは一考すべきです。

どのようにして

取得対象に何らかの偏りがないか、データの取得方法やデータ収集プログラムに不備がないかなどにも注意が必要です。

特に、アンケートにおいては不適切な内容のものが頻繁に見られますね。
アンケートは細心の注意を払って活用しないと、対象を正しく把握できないような歪みのあるデータを得てしまうことが多々あります。

どのような取得期間か

例えば、「昨今の各国の若者の凶悪犯罪数を比較したデータ」と説明されているが、調べてみると他国のデータはおおよそ4年ほど前に取得されたものなのに日本のデータだけ30年前のものであるなど、比較するのに無理があるケースがあるんです。

この例では、30年前のデータを昨今のデータと呼んで良いのかも疑問がありますし、国によって取得期間がバラバラなデータを比較しているのも問題でしょうね。

いつ(取得タイミング)

データが改修されていないかなどを検証する時には、データの取得タイミングが問題となります。
毎年公開されているデータが、利用者の要望を受けてある年から突然内容を増やしたり、減らしたりすることがあったり。
あるいは、データの記載ミスなどが後々発見され、修正されたりすることもあります。

すると、同じ取得期間でデータを取得しても、その改修タイミングの前後でデータの内容や形式が異なることがあるのです。

特に、 API( データを取得できる機能)からデータを取得する場合は、 API 提供元によってデータの中身が大きく変わることがしばしばあります。

データの内容や形式が異なると、「この売上データ分析ツールは売上データの5列目に販売個数、6列名単価が入っている前提で計算するようになっているのに、データを更新したら6列目に商品名が入っていき計算できない」というように、分析ツールが動かなくなることがよくあったりしますよね。

「同じ取得期間で同じ対象でデータを取得しているはずなのに、なぜか以前取得したデータが内容が異なる」 などということになってしまうのです。

それを防ぐために、データををいつ取得したのかを確認し、各取得タイミングの間にデータやデータ取得プログラムに何らかの改修がなかったかを調べる必要がるので気をつけましょう。

参考資料:
データ解析の実務プロセス入門

著者:あんちべ

出版社: 森北出版