データサイエンスの道具とその使用例

データサイエンスの3つのスキル

データサイエンスにおいて必要とされる主に3つのスキルがあります。

  • 業務に関する知識 (現場のサービス・データベース知識・意思決定軸など)
  • 幅広い IT スキル  (プログラミングなど)
  • データ分析固有の知識技術 (統計学・データマイニング・機械学習など)

 

そもそも統計とは

統計はもともと国家で人口などを収集する作業での仕事で利用されていた。

このことは国家の他の国との比較しての立ち位置や国として持っているパワーを人口や貿易など数値として測るために始まったとされています。

 

統計学の成り立ち

19世紀頃に「クリミアの天使」と呼ばれるイギリスの看護師ナイチンゲール現在の統計近いものを行いました。

引用元:Wikipedia

クリミアから帰ってきた兵士たちの死亡要因に関するデータを収集することで医療改革を行いました。

その当時、帰還した兵士たちの死亡を目の当たりにし、彼女は疑問を持つことがきっかけに調査が始まりました。

  • 兵士は傷そのものによって死亡したのだろうか?
  • 期間後の不衛生な環境によって死亡したのだろうか?

 

帰還兵士の死亡原因を円グラフで可視化

引用元:総務省統計局

クリミア戦争から帰還した偏差値の死亡要因を円グラフでまとめ比較化を行いました。

 

そのデータの結果から 病院内の不衛生な環境によって死亡している割合が高いことが分かったため、病院内の衛生環境改善により死亡率を改善しました。

 

さらにその後、確率論知識が加わったことで20世紀に統計学という学問として誕生する。

統計学は学問の分野としては比較的新しい分野に入ります。

 

ビール製造での適切な酵母の量を調査

近代統計学の成立に多大な貢献をしたゴセットはギネスビール会社でした。ちなみに世に存在するギネス記録やギネスブックなどは、この会社の幹部の遊びに由来しています。

  

引用元:総務省統計局

引用元:ギネス世界記録公式サイト

 

酵母の量が多すぎても少なすぎてもビールが味の品質を損なうため、酵母数を把握することは、ビール会社によって非常に重要な課題でした。

そのため、発酵させるための容器から少量の酵母を抽出し、その酵母を顕微鏡で見ることで容器全体の酵母の数を知る必要がありました。

 

容器のことを統計では母集団、少量の酵母のことを標本と呼びます。

その後、この技術(差があるかどうかという考え方)は世界的な科学者に応用されることになりました。

 

差があるかどうかという考え方

3クラス間でのテストの評価を行う

1組と2組と3組の3クラスでテストを行った。

その結果は次の通りとなったが差があると言えるのか?

クラス別成績

Q.1組と2組と3組に差があることを示すにはどうすればいいか?

A1.合計値を出してみる

A2.平均値を出してみる

 

またこの平均値に差があるのは偶然と言えるのでしょうか?

当然二つの主張に割れてきます。

  1. 偶然ではない。
  2. 偶然だ。

今回の試験結果は実際の実力を反映しているのか、たまたま  優秀な人が体調を崩していた時にテストが実行されたのか自由に主張することができる。

ここで重要なのは主張を述べ合っいては議論平行線のままということです。

 

ではどうしたらいいのでしょうか?

そこで数学的な観点で評価を行うことにします。

「3つのデータの差があるか」を判断することを試みてみます。

このことを統計学では検定と呼びます。

テストの点数にはばらつきが生じますがこの点数のばらつきにはある規則性に従っていることが見えてきます。

この規則性を利用することで検定が可能になります。(正規分布という確率分布を応用)

このように統計学の検定により偶然のバラツキに左右されているのか意味のある差があるかどうかを判断できるようになります。

 


大学4年間のデータサイエンスが10時間でざっと学べる