データサイエンスの実用性と本質 | 誰もが嘘をついている | 要約 | 1

参考資料:

誰もが嘘をついている ビッグデータ分析が暴く人間のヤバい本性

著者: セス・スティーヴンズ=ダヴィドウィッツ

出版社:光文社

レビュー

データサイエンスの実例を公開している書籍が少ないなと感じている中この書籍と出会いました。主に人間の行動心理に対してデータ分析を行なっているため心理学の本なのかな?といった印象でした。しかし、実際のビジネスの考えにおいても、どういったタイミングで商品の購買意欲が湧くのか?なぜこのサービスを利用していたいと思ったのか?きっかけはなんだったのだろうか?など、結局ビジネスも人間の行動心理が本質なのだと考え、ノウハウではなく、「データサイエンティストが考えるべきあり方」について学ぶことができる貴重な書籍だということがわかりました。

これからデータサイエンティストになりたい!ビジネスにデータ分析をもっと有効活用させたい、そう考えるあなたの今後の行動指針の手助けとなる聖書になるのではないでしょうか?ぜひ本記事の要約からそのエッセンを受け取っていただけますと幸いです。

著者略歴 (東洋経済オンラインより)

■セス・スティーヴンズ=ダヴィドウィッツ

データサイエンティスト

スタンフォード大学で哲学を専攻し優等で卒業後、ハーバード大学で経済学の博士号を取得。グーグルのデータサイエンティスト、ペンシルバニア大学ウォートン校の客員講師などを経て、現在はニューヨーク・タイムズ寄稿者。グーグルの検索データなどのビッグデータと既存の調査結果を分析して、人種差別やヘイト、鬱病、児童虐待、性的嗜好などさまざまな社会現象の真相を探っている。ニューヨーク在住。

本書の要点

そもそもなぜデータ分析を行うのか?

1章では、人の意見とデータから得られる情報の違いについての見解が述べられています。著者が愛して尊敬する「おばあちゃん」。

そのおばあちゃんの経験に基づいたアドバイスの的中率が高いにもかかわらず、なぜ著者はビッグデータの結論も重要と考えているのか?

おばあちゃんとビッグデータの決定的な違い

人は自分の決定や行動に対して重要性を起きがちである。

つまり、バイアスがかかってしまっているため、自分の体験に基づくことが正として事実の方向性を無意識に歪めてしまうことがある。

一方、ビッグデータの場合は、小さな事柄でも相関関係や因果関係を導きやすいというメリットがあります。

ビッグデータの威力と導入部分

ビッグデータの4つの長所

  1. 新種のデータや気づきをもたらしてくれる
  2. 正直なデータをもたらしてくれる
  3. グループに絞り込んで分析ができる
  4. グループ同士を比較することができる

ビッグデータはうまくそれを活用することができるのです。

失業者が検索している意外なワード

実例として、証券会社は「失業率」のデータが証券市場に有用性が高いことを導き出していることがデータサイエンスから有用性を導き出しました。そのため、より鮮度の高い「失業率」のデータを求められていました。失業率のデータを抽出している現状の政府の調査だと電話で聞き込み調査を行なっているため、数週間時間がかかっていまい、データの鮮度が下がってしまうことが課題でした。そこで、著者はGoogleの検索ワードから調査した方がよりデータの鮮度が高い「失業率」データが導き出せるのでは?という考察からビッグデータ分析から失業者が暇つぶしに検索しやすいワードのトレンドによって「失業率」を予測することを証券会社での実例としてお話ししていました。

 

誰もが嘘をついている

アメリアではヒアリングの調査結果では2%の人がゲイだとわかったが、実際にゲイもののポルノ動画を検索する人は全体の5%もいることがわかった。

つまり、実際の人の発言を信用するのではなく、その人間の行動を重要視しようというお話です。口は嘘を付きますが、行動は嘘をつかないということですね。

 

伝え方によって、人の行動も変化します。実例として、イスラム虐殺などのイスラム差別から、差別ワードを検索する人が多かった時期に、オバマ大統領がイスラム教徒に対する公平に接すべきだと国民へ主張し、教えを説いたところ、逆に差別に関する検索ワードが増え、人は説教をされると反発する人が増える傾向があるため、人の行動を促す際は、相手が興味をそそるような、実践したくなるような内容に伝え方を工夫した場合、言うことを聞き入れて行動を改める傾向にあるとデータで実証されています。

 

FaceBookの実例では、各ユーザーの行動分析の結果をニュースフィードとしてタイムラインに載せる機能を導入した際に、「ストーカーみたいな行動をやめろ」と多くのユーザーから批判の声があがりました。しかし、マーク・ザッカーバーグはその批判を一切聞き入れませんでした。

なぜなら、批判する声があがりつつも、実際はFacebookのそのニュースフィードに対するアクセス数が大幅に増加したからです。

ここからも、実際の批判の声ではなくて、人間の知り合いの行動を知りたいという欲求を満たすために動く本質的な行動を重要視すべきだということがわかるのです

 

ビッグデータの絞り込みからどういうことがわかるか?

青春時代に受ける影響が、後の行動にも大きいな影響を与える

著者には、声も性格もそっくりな弟がいますが、唯一野球が好きかどうかという違いがあるそうです。

そこから、著者は全チームのファン層の年齢層を球団ごとに関係性があるのではないか?という仮設に伴い分析を行いました。

結果、少年時代に優勝した球団をその後も、その世代がファン層として多いことがわかりました。

 

また、10代後半に強い政権を当時持っていた党に対しても支持者が世代の層として多いようになる傾向があるそうです。

地域で受ける影響が、後の行動にも大きいな影響を与える

貧しい家庭の人が裕福になる可能性は国ごとに調べると低いが、州ごとに比較するとさらに地域差によって裕福になる割合が異なります。

また、宗教心が高かったり、犯罪率が低い、もしくは教育に対しての投資の割合が高い地域などは裕福になる可能性が高いことがわかっています。

コチラの分析結果も面白いのですが、宗教性の高いかどうか、汚染度、健康保険の被保険率などから生存性を分析を行い、富裕層が多い地域などは運動などの良い習慣作りを行なっている地域では寿命が延びるケースが多く、それは富裕層だけが寿命が伸びるわけではなく、良い模範が多き所にいると貧困層も寿命が伸びることがわかったのです。

これらの分析結果からも青春時代や地域で受ける影響が大きいことが十分わかりますよね

世界中が実験室

相関関係と因果関係は検証することで関係性の真実を証明することができるのです。

例えば、「アルコールを適量摂取することがある人」が「健康的な体」になるのか、

人が「健康的な体な人」が「アルコールを適量摂取する」のか相関はわかるが、どっちがどちらに因果があるのかをごっちゃにしがちなケースが多く見られます。

しかし、それは一杯のワインを習慣的に飲ませるグループとお酒を飲まないグループに分けて実験することでお酒が健康に関係する因果関係を出すことができるのです。

つまり、Webだとそういった無作為抽出実験が容易に可能にできる状況にあり、活発にビジネスの現場でも率先して取り込まれるようになってきました。その無作為抽出実験のことを2010年ごろからABテストと呼ばれるようになったのです。

オバマ大統領の講演用のWebサイトで見出しやキャッチイメージをABテストをした結果、有用性の高いデザインを導き出すことができたこともABテストの実例として有名なお話ですよね。

Googleの広告でも、矢印が有る無しでの効果の違いを分析を行い、「矢印が何を示しているのかわからない」という批判の声がありましたが、データの実績から矢印がある方が有用性が高いことがわかったため、GoogleもABテストを活用してデザイン改修を行っています。

できること、できないこと

これまでで、データサイエンスやビッグデータの有用性についてお話ししていましたが、ここからデータを取り扱う上での注意事項となります。

例えば、株価の変動予測を1,000日間毎日行い、同時にコイントスを1,000日間、毎日1回行い、表を予測します。

 

そして、「391日目が表になる場合がもっとも株価予測の結果との有用性が高い」、といった馬鹿げたことが統計結果ではだすことができてしまいます。

でも、これって本当に有用性があるということができないですよね?

実例として、ツイッターでの発言から、冷静な判断をする発言が多いと、株価の変動が活発化するという有用性を元にビジネスをはじめた会社があったそうですが、一ヶ月後には業績不振で倒産したそうです。

つまり、データから相関が出たからといって、それが何を指し示すのか?なんのために分析を行い、成し遂げたい目的に対して、その有用性が何を指し示すのかを考え、意思決定は自分たちで判断しないといけないということです。

やってはいけないこと

同じく注意事項ですが、データの結論から得られることが、必ずしも真実であったり、正しいとは限らないということです。

実例で、彼女をドライブに誘う前に、「彼女 殺す」などの検索ワードで1,000回以上検索している男性がいたのですが、もし彼女がそんな事実を知っていれば絶対彼の運転する車には乗らなかったはずですよね。

でも、残念ながらそんなことは知らず彼女は車で山に連れて行かれて、殺されてしまうのですが、では、実際に殺人に意欲を示すキーワードを検索する人が実際に、殺人という行動に移す人がわずか1%しかいません。

データから見ると有用性が低いのですが、だからといってその殺される可能性がある人をみすみす見過ごすのかという倫理やモラルといったことも考慮しなければ当然なりません。

まとめ

ビッグデータの分析から新種の気づきや、属性別に絞り込みを行い、比較を行うことでデータサイエンスから相関・因果関係の有用性を導き出すことは確かですが、ただデータ分析から出た結果が真実とか限らないので、それをABテストで検証などを行い、「何を成し遂げるために、何を分析し、それが事実関係しているのかを実際に有用性を検証することが大切」になってくると思います。

参考資料:

誰もが嘘をついている ビッグデータ分析が暴く人間のヤバい本性

著者: セス・スティーヴンズ=ダヴィドウィッツ

出版社:光文社