データ解析初心者がいだく疑問について、一問一答していきます!!

参考資料:
データ解析の実務プロセス入門

著者:あんちべ

出版社: 森北出版

前回の記事でデータ解析の意義について紹介しました。

Q & A データ解析初心者がいだく疑問

ここで、データ解析の初心者からよく聞かれる疑問に答えます。

データ解析系の本を何冊か読んでみたら、本によって内容が全く違うのはどうして?

一口にデータ解析系の本と呼ばれているものでも、分野や目的によっては内容が異なります。
それらの本が扱うタスクは、次のように大きく4つに分類することができます

1に近いほど、ビジネスよりで、4に近いほどエンジニアよりだと捉えてください。

  1. 経営戦略や新サービス開発などのビジネスよりのタスク
  2. データマイニング
  3. 数学的に高度な機械学習自然言語処理という分野の技術を用いて検索や推薦、広告のマッチングなどをシステム面や論理面で実現するという専門的なタスク
  4. 大規模なデータを扱うための分散処理システムHadoopや BI ツールを開発・運用するエンジニア向けのタスク

(1) 経営戦略や新サービス開発などのビジネスよりのタスク

これを扱う一群の書籍は、凝ったツールや手法を使うのではなく、分析計画や専門知識を活かした分析で意思決定を補助することを主眼としています。
数学やプログラミングに関する記述はほとんどなく、「いかに分析結果を施策につなげ、それを実践して価値を上げるか」「どうすれば企業にデータ解析の文化を根付かせられるか」などに力点を置いています。
主にビジネスパーソンやマーケター向けに書かれています。

河本薫:「会社を変える分析の力 (講談社現代新書)」、2013

高橋威知郎:「14のフレームワークで考えるデータ分析の教科書」、かんき出版2014

などがおすすめです。

(2)データマイニング

データマイニングとは、データの統計的な分析手法を用いることによって新しい知見や問題点を見出すタスク

各種分析ツールや手法を使いこなすことに重点を置いています。
内容は R や Python というプログラミング言語を用いてデータマイニングの様々な手法を解説・実践するものが多くあります。

豊田秀樹:「データマイニング入門」、東京図書2008(使用言語は R)

Wes Mcinney:「Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理」、オライリージャパン 2013

(3) 数学的に高度な機械学習自然言語処理という分野の技術を用いて検索や推薦、広告のマッチングなどをシステム面や論理面で実現するという専門的なタスク

これを解説した本は大学院で専門の技術を学んだ方が主な読書そうとしており、基本的には常にあるミッションをより高精度・高速に実現することを主眼としています。

この分野の入門書としては

荒木雅弘:「フリーソフトでつくる音声認識システム パターン認識・機械学習の初歩から対話システムまで」、森北出版2007

高村大也:「言語処理のための機械学習入門 (自然言語処理シリーズ)」、コロナ社2010

がおすすめです。

(4)大規模なデータを扱うための分散処理システムHadoopや BI ツールを開発・運用するエンジニア向けのタスク

残りがこれとなります。データの大規模処理をおこなってビックデータ分析用のデータセット抽出に役立てています。

データ解析は意外な発見を求めるものなの?

データマイニングの分野でよく出される例として「オムツとビール」があります。
大量の購買データの分析したところ、オムツを買う人はビールも一緒に飼うということが明らかになり、オムツとビールの売り場を近くにすると売上が上がったというものです。
これは意外性があり大変面白い話ではあります。
データマイニングとは何かを説明する時ほぼ毎回のように登場する話となっており、この話を引き合いに「データマイニング=意外な発見をするものである」というように語られることもしばしばあります。
しかし、我々が求めるものは意外性ではなく有用性であり、有用性と意外性は必ずしも一致するものではありません。知るべきことは当たり前のように知ることが、むしろ重要となる場合があります。
当たり前の話から価値を抽出した例として、クックパッド社の提供している「たべみる」というサービスのエピソードを紹介したいと思います。
クックパッドは料理レシピ閲覧サービスで、たびみるはそのサービス内の検索キーワードのログを販売するサービスです。
たべみるではレシピの検索回数だけでなく、「どの地域で」「何月に」 検索されたかのデータも取得可能です。
とある食品小売業者がこのサービスを利用した時の事です。
その時に明らかになったことは、「冬は鍋の検索回数が多い」ということでした。これは全く当たり前の話のように聞こえます。
しかし、具体的に冬とはいつを指すのでしょうか。
もちろん、暦の上での話ではなく、実際に鍋が売れる時期は一体いつからいつまでなのかという意味です。
食品流通業界では「鍋の季節は遅くても1月までで、それ以降は売れ行きが落ちるに違いない、だから鍋物の取り扱いを抑えるべきだ」という業界の常識があったそうです。しかし、たべみるのデータを参照すると、鍋物の検索数は落ちませんでした。そこから、 1月以降でもまだまだ鍋物は売れるのではないか、これまで早くに鍋物を引き上げていたことで商機を捉えそこなっていたのではと考え、1月以降も引き続き小売店で鍋物を取り扱うことによって売上向上を果たしたのです。
このように、 一気に当たり前のように見える知見であっても、詳細に把握することによって価値につなげることが可能です。
当たり前だと言われることも、よくよく考えてみるとおぼろげな関係性しか掴めないことがよくあります。
データ解析をするには「知る」と「把握する」と「理解する」違いを区別する必要があります。
この違いは先ほどの冬の鍋の例で説明すると

  • 知る:冬になれば鍋が売れるという現象を何となく知っている
  • 把握する:散布図を書いたり相関分析分析手法を用いたりして、 時期や気温と鍋の売れ行きの関係をつかんでいる
  • 理解する: なぜそのような関係で成り立つのかの理由を、その文明の知識と合わせて説明・解釈できる

となります。
具体的に何がどの程度影響を及ぼすのかを把握・理解することによって価値につなげていきましょう。

高価・高度な分析ツールは必須?

必須ではなないと思います。
あった方が便利な時もありますが、決して高度なツールだから分析計画を立てる必要がなかったり最適な地方で自動で選択してくれるわけではありません。

高価・高度なツールになると、見栄えが良かったり、計算速度が速かったり、便利な機能が搭載されているケースもあります。
コストパフォーマンスを考慮して決めれば良いという程度のもので、決してないといけないものではありません。

ビッグデータ必須?

ビッグデータとはここでは単に大規模なデータだとお考えくださいビッグデータがあれば便利な時もあるという程度のものです。
決してビックデータがあれば様々な統計的問題がたちどころに解決されるわけではありません。ビッグデータの例としては、自社サービスの全顧客の全行動履歴をデータとして保存している場合などがあります。
このようなビックデータを手にしてれば、サンプリングの方法の選択やサンプリング故に発生する問題に頭を悩まなくても良くなるので 、楽といえば楽です。
また、データをスライシングしてみた時でも各層に十分なボリュームがあるのも魅力です。
データサイズが小さい時は、スライシングすると各層にわずかなデータしか残らず統計的な分析が困難になるケースもあるからです。
ただし、ビッグデータを扱うにはそれ相応のコストをかけてシステム構築・開発・運用を行う必要になります。
開発やインフラを受け持つ別部隊があるのでそこに協力依頼をするのも手ですが、ビッグデータを収集・管理・集計・分析するシステムを一手に引き受けつつ分析も進めるというのは至難の業です。
費用対効果に見合うか、 人員を調達できるか次第で検討してください。

分析手法ってどうしてこんなにたくさんあるの?どれだけあるの?

データの性質や分析目的によって適切な方法が異なるからです。しかも手法数は「データの性質×目的」という組み合わせで増えていくため、全体として膨大な数になっていますしかし、データの性質や目的を絞れば、 大抵の場合比較可能な数に収まります。
分析手法が一体どれだけあるか、それは専門家にあっても把握しきれませんそもそも何を持って分析手法と呼ぶのかも曖昧ですし、しかも原理的に全く同じ手法なのに了解が変わるだけで呼び方が変わっているものもあります。
最初は、必要に迫られた時に一つひとつ理解するようにしましょう。

分析手法で何個覚えないといけないの?

やりたい分野領域のやりたいことに応じて主流の手法を2、3を覚えることから始めてください。統計学入門者にとって、統計学の門を外側から眺めてみると分析手法が山のようにあるように見えると思いますが、分野や目的を絞ると手法が数個に絞られることも多いのです。

難しい高度な分析手法を使うのは何のため?

特殊な状況に対応するためです。
一つは、データが異常に偏っていたり、データのサイズより変数の方が多すぎたり、 数ある変数の中でほとんどがゼロになったりと行きたいデータの性質によるもの。もう一つはリアルタイムで実行する必要があったり、短時間はあまりにも多くの量のデータを捌く必要があったりという機能的な要請によるものです。
あるいは、データに抜けがあったり、バイアスがあるデータしか取れない、データサイズが小さすぎるなどのデータ取得・収集のプロセスに問題がある場合もあります。
いつかこれに対峙しなければならないときも来るかもしれませんが、応用的な手法は必要になってから学べば良いでしょう。

データ解析をするには、統計学もプログラミングも施策提案もできるスーパーマンじゃないといけないの?

データ解析に関連する各々の分野には専門家がおり、その専門領域については依頼することもできるため、 全分野のエキスパートであるスーパーマンになる必要はありませんデータ解析士に求められるのは、全ての分野を自力で成し遂げられるようなスーパーマンとして振る舞うことではなく、データ解析には関連する全プロセスの監督者になることです。
ここで言う監督者の役割とは、 各々のプロセスにおいて何をしなければ何かを明示し、 各プロセスで問題が発生するば関係者と協議し解決を図ることです。
代打快適車の仕事は最終的な目的を達成すべく監督としての役割を果たすことであり、個別のタスクや問題点は本物の専門家に依頼して解決を図ることも多いでしょう。

データ解析って統計分析をするだけじゃないの?

誤解されがちですが、データ解析において統計分析はいくつもあるプロセスのうちのひとつでしかありません。「データを分析ツールにかけて分析結果を出すことだけが役割であり、データを収集したり分析結果を基にし策を提案したり施策を実施したりするのは自分のタスクではない」というのではデータ解析したとは呼べず、ただの分析ツールのオペレーターに過ぎないと言えます。
よく「(自分の分析自体は問題ないが)目的設定が悪い、データが悪い、施策が実施されない」などと言って分析以外のプロセスに何か問題が発生しても他人ごととしてしまうとデータ解析者いますが、それは間違っています。
目的設定から北口までの全て実践することで初めて価値を得られます。

データ解析で必ずやらないといけないものなの?

データ解析は威力を発揮するには、 その各プロセスを十分に実施できるという条件が必要です。
実際問題として、その条件を満たせないことも多々あります。
十分な目的設定やデータ設計を行う時間がなかったり、目的に沿わない不揃いなデータしかなかったりする場合に、無理やり分析を行う施策を決めるのは、かえって勘や経験で意思決定するよりも悪い結果を招く場合すらあります。
例えば、偏ったデータから誤ったユーザー層にターゲティングしてしまい、実際の大半のユーザーが求めていないサービスに注力してしまうケースなどです。
データ解析どんな分野でもどんな時でも万能無敵ツールだというわけではありません。

まとめ

データ解析には多様な失敗が存在します。
苦労しだした分析結果が既に分かりきったことだったり、逆に完全に理解不能だったら直感に反したり、あるいは解析自体は成功したが施策に結びつけられなかったりなどです。
中でも最悪なのは、何をすべきかの指針が立てられず、とにかく目についたものからいじり回そうとしてしまうことです。
これが夜道で落し物をした際、探すべき歩いてきた経路ではなく、明かりがあって探しやすい伝統の周りだけを探しています。
失敗した時、 次にどうすればよいかがわからないと、失敗から立ち直ることができません。

そして、 そのまま目にうまいのオペレーションに固執してしまい、本来のデータから価値を得ることから遠のいてしまう・・・というケースが多々あります。
分析を進める上で、失敗に直面することは避けられませんが、失敗に終わることは避けられます
「どのような分析ステップが必要で、どの順番で実行しなければならないか」「何か失敗が発生したとき、どこまで戻って再実行するか」の二つの適切に把握し実践することにより、分析を改善するサイクルを回し、最終的にはほとんどのデータ解析を成功に導いています。
データ解析は一度のフローで終わるのではなく、継続して改善サイクルをなすものです。
サイクルを回せるようになるため、データ解析の一連のプロセスを学んでいきましょう。

参考資料:
データ解析の実務プロセス入門

著者:あんちべ

出版社: 森北出版