データサイエンティストにまつわる業務とは?

機械学習にまつわる業務について

企業の採用担当者というのは、データサイエンスに関するバズワードが飛び交っており辟易してることも多いです。

また、その結果として必要とする職種の選択を間違ってしまうこともあります。

そういった混乱を避けるために、どういった名前の職業があるのかということをまとめていきます。

「データアーキテクト」、「データエンジニア」、また、「ビッグデータアーキテクト」や「ビッグデータエンジニア」というのはマーケットにおいて、非常に重要な立場を担っています。

なぜなら、この職種に就いてる人はデータサイエンスやビジネス上の問題を解く上で必要とされる全体の手順において重要な役割を担っているからです。

データアーキテクト

データアーキテクトはデータベースを一から作っていきます。

そして、その具体的な仕事としてはデータをどのように取り込み、処理し、活用できるようにしていくのかというものです

データエンジニア

データエンジニアというのは分析に活用することができるようにデータを処理する役割を担っているということができます。

ですので、データエンジニアの仕事というのはある意味分析の観点も含んでいます。そして、分析を担当する人というのは、この処理されたデータを信頼したうえで、分析を進めていきます。

また、データベースに格納されているデータというのは、一度に全て作成されるものではありません。

ですので、新しく出たり入ったりするデータをコントロールする役割を担っている人として データベースアドミニストレーター(database administrator) という職種が存在します。

このデータベースアドミニストレーターはおもに従来のデータを扱うことを担当しています。

ビジネス インテリジェンス(BI)

次にビジネス インテリジェンス( Business intelligence )についてみていきましょう。

BIアナリスト

BIアナリストはデータを使って分析を行いそのデータに関するレポートを作成する役割を担っています。またBIコンサルタントも同じような役割を担っていますが、若干象徴的なイメージになっています。

しばしば、BI コンサルタントというのは外部で雇う第三者のことを示す場合もあります。

自社でデータサイエンスの部署を抱えるほどの規模ではない多くの企業は、データサイエンスの業務を外注していることもありますですので、 BI コンサルタントは社内の分析をするのであれば、BIアナリストと呼ばれることになります。また、BIコンサルタントの業務は、外注を受けたデータの分析だけにとどまらず業務が多岐にわたっていることが一般的です。

BIディベロッパー

最後にBIディベロッパーというのは Python と SQL といったプログラミングツールを使い、その会社特有の問題を解くこと業務としてる人のことを言います。

データサイエンティスト(データアナリスト)

次に見ていくこの2つに関してはそれぞれの職種がお互いに重複し合っている部分が多くあると考えていただければと思います。

従来の手法であっても、新しい機械学習の手法であってもデータを使って将来を予測する仕事を担っているとはデータサイエンティストと呼ばれます。

そしてデータアナリストというのはより高度な分析を行ったり、機械学習エンジニアチームが行う分析の下準備をしたりする仕事を担っています。

データサイエンティスト(機械学習エンジニア)

最後が機械学習エンジニアです。この仕事は専門性が高いので比較的簡単に区分けすることができます。この人は機械学習の分野で適用することができる非常に高度なモデルを構築し、それを複雑なデータサイエンスやビジネス上の問題を解くことができるようにするための仕組みを作ることができます 。

ビジネス インテリジェンス(BI)について間違いやすい点について

すべての分析というのがビジネス インテリジェンス(BI)に属するというわけではありません。

ビジネス インテリジェンス(BI)にというのは過去のデータを分析し、そこからデータに基づいた結論を導くということができました。

その一方で、ビジネスアナリティクスというアプローチではデータ分析ではなく、SWOT分析といったものになります。SWOT分析というのは定性分析というカテゴリにおいて、戦略的な意思決定をする際に有用であると言われています。これは端的にはある企業のビジネスにおける強みと弱みを整理する際に用いられます。ですのでSWOT分析というのは会社の取るべき戦略を改善していくという意味においては有用ではありますが、それはデータに基づいた分析ではないということができます。 RやPythonといったプログラミング言語を使って統計的な手法の分析をしていくということは難しいと思われることも多いですが、必ずしもそうとは言えません。RやPython といったものはデータサイエンスの領域においてのみ用いられるツールではありません。データサイエンティストのストーリーテリングは欠かせないスキルだと言えます。

言い換えるとデータサイエンティストというのは複雑な数学的な概念をユーザーに対して分かりやすく説明するスキルが求められます。

また、会社の上司に報告する際には簡潔にまとまったグラフなどを用いることもあるでしょう。そしてそういった場合には Excel や stata SPSS といったものがよく使われています。

機械学習や人工知能というのは古くからある学問ではないため、未だ発展の途中ということができます。その一方で明確な整理ができていないことからしばしば科学者や学者から批判を受けることもあります。

例えばディープラーニングのアルゴリズムというのはモデルの正確性を非常に高くすることができます。ですが、機械がどのようにしてそのような素晴らしい結果を得ることができたのかという点について明確にはなっていない部分も多いのです。ですので、そういった問題を解決するため非常に多くの学術論文が存在しています。