あなたは正しく理解できていますか?データ解析を行う手順1/3

参考資料:
データ解析の実務プロセス入門

著者:あんちべ

出版社: 森北出版

前回の記事でデータ解析プロセスを学ぶ意義について紹介しました。

この記事では、各プロセスとその流れを学び、実践データ解析をするためにとるべき行動を見ていきましょう。

1.目的設定

「何の目的のために?」 という問いに、出来る限り明確に回答してもらうことが、統計作成依頼者に対してまずなすべき統計家の第一の責任である。
―北川敏男、統計科学の三十年

データ解析の最初の段階でやるべきことは、 その時点での最良の目的設定です
目的設定はデータ解析のプレゼントの最初であり土台です。
ここが疎かですと、その後どれだけデータを集めようが高度な分析手法を用いようが意味はありません。

目的を設定するときに重要なことは、現実的な制約を一度忘れて「目的を設定することだけを考えること」です。
データが十分に揃い、分析手法も問題なく適用でき、その精度・確度が正解率が100%で、スケジュールに何一つ遅延が発生せず、つまりはすべてがうまくいっていたとして何が得られるかです。
なぜそのような考え方をするかというと、データ解析によって得られる価値の上限を目的によって決まるからです。
データが不十分であることや最適な分析手法を用いないことにより、得られる価値がいくらか目減りしてしまうことがあります。
しかし、得られる価値の上限を決める目的設定がちゃんとしていないことの方がよほど深刻です。
ここでは、「もしもこのデータが手に入り、このような分析ができて、出てきた結果が実行可能な施策につながるのならば・・・」というように、考え得る最良の夢物語を語ることが有効です。
ただし、「10年に1度の画期的な分析結果が〜」、「これまで市場で見たこともない斬新な〜」というような誇張や美辞麗句は必要ありません。
プロセスは反復するものであり、最初に明確な目的を設定することが必須ではなく、あくまでその時点での最良のを目指せば問題ありません。
その時点での最良とは、その時点で得られる情報を基に決定できる部分を決定することです。
逆に、その時点で未確定の情報について決める必要はなく、無理やりしようとするとかえって誤った方向に目的を導いてしまうことがあり得ます。
単純に今月の売り上げが下がった原因を知りたい、新サービスをどの年代性別層をターゲティングすれば良いか把握したいなど、はじめのうちは大雑把な目標設定で構いません。
実際にデータを可視化したり分析手法に掛けたりすると、胸の内にぼんやりとしか存在していなかった目的が徐々にしっかりした輪郭を書き出します。

データ分析で最も重要なのは、 その時点での最良な目的を明確にすること。その次にデータ。最後に手法です。
決して目的を決めずに闇雲にデータ収集などの作業に取り掛かることはないように努めましょう。
ただし、前任者がいたりデータ解析チームが存在したりして、 完全でなくともある程度有益なデータが既に存在する場合もあります。
そうであれば、目的設定のためにそれらを利用することも可能です。

目的設定のアプローチ

目的を設定する方法は大きく分けて2つのアプローチがあり、仮説検証型アプローチ探索型アプローチといいます。
前者はデータ解析士は依頼者がもつ仮説をデータによって正誤を検証するアプローチで、後者は既にあるデータを様々な切り口から眺めることによって目的を生み出すためのアプローチです。
はじめから何らかの仮説がある場合は、その仮説に基づいて仮説検証型アプローチを進めます。

仮にその仮説が間違っていた場合であっても、それはプロセスは反復する上で改善していけばよいだけです。
逆に、データ解析者に市場や製品の知識が乏しかったり市場の変換が激しすぎて仮説が立てられない状況で、かつある程度データがある場合は、探索型のアプローチを取ります。
その場合は、各データの分布を見たり各データ同士を比較することによってデータから何らかの特徴を発見し、その特徴を解明することによって最終的に価値へとつなげるという手順を踏みます。
たとえば、数ある自社製品のなかでもある商品だけ売り上げが悪かったり、あるサービスにおいて30代男性の層だけ妙に利用継続率が悪かったなどの特徴がデータから明らかになれば、さらにその理由を問うことで検証をすすめていくことができます。
この探索型のアプローチを統計学の用語で探索的データ解析と言います。

仮説検証の進め方

ここでは仮説検証型で目的設定する流れを追ってみましょう。
業務におけるデータ解析で頻繁に用いられる目的として

  1. 利益の増加
  2. 新サービスの開発
  3. 顧客把握
  4. 問題点の改善

などがあります。
最初はこのような大雑把な目的設定からスタートし、徐々に着手する価値のある目的とは何かを見出すようにしていきましょう。
例として、利益の増加させるという目的を徐々に明確化する流れを取り上げます。
まず、利益はどのような要素で構成されるかを考えます。
いろいろな捉え方が可能ですが、ここでは[利益 = 売上 – 費用] で構成されるとしましょう。
このように利益の構成がつかめれば、利益を増加させるには売上を上げるか費用を下げれば良いということがわかります。
また、費用や売上にもさらにその下の階層があり、費用は変動費と固定費、売り上げは販売個数と単価というように分解できます。
このような細分化とプロセスを進め反復することで、たとえば「自社の利益を損ねている主な原因はなんだろうか?売り上げは他者と遜色ないにも関わらず利益が低いのは費用が大きいせいだ。とくに費用の中でも固定費が大きいと考えられる。よし、データ解析でなぜ固定しが大きくなってしまったのか、とくに削減できる固定費項目は何かを調べよう」というように、目的を明確して行くことができます。

ロジックツリー

この目的設定を行う際に用いられる手法として、ロジックツリーがあります。
ロジックツリーとは、論理構造を図で表現する可視化手法です。
ロジックツリーを用いると、目的を構成する各要素に階層構造を持たせて可視化することができます。

続きはコチラ

参考資料:
データ解析の実務プロセス入門

著者:あんちべ

出版社: 森北出版