データの話するなら知ってたほうが良い、統計用語まとめ一覧

参考資料:
データ解析の実務プロセス入門

著者:あんちべ

出版社: 森北出版

前回の記事でデータ解析の意義について紹介しました。

統計用語

情報とデータ

データ解析でいう情報とは分析対象がもつ性質や特徴のことであり、データとは情報は何らかの測定法を用いて数値を文字にしたもののことです。
SNS 利用者のそのサービスへの愛着度を例に出すと、情報は利用者の持つそのサービスへの愛着度そのものであり、データとはその愛着度をアンケートや何らかの測定法(利用頻度など)で数値は文章にしたものです。

データとデータセット

データと一口に言っても、文脈によって実際には「データセット」のことを指している場合があります。
データセットとはデータの集まりのことです。
例えば、ある商品の日本の各都道府県の売り上げを見るという場合は、日本全国のデータをデータセットと呼び、各都道府県の売上データをデータセットの一部、あるいは単にデータと呼びます。

統計と統計学

統計という用語は「対象を調査してデータにする行為」を指す場合と「調査によってデータ」そのものを指す場合があります。
どちらのことを指しているのかは文脈次第です。
統計処理や統計分析など統計◯◯という語が出てきたら「データに基づいて、あるいはデータに対して何かの処理を分析をすること」と考えてください

統計学は統計全般に関する学問のことです。
統計学という分析手法を学ぶ・ 開発するものだと思われがちですが、先ほどの統計の説明でも述べたように、「どのようにデータを取得するか」も対象範囲です。
なぜ統計学が分析手法だけでなくデータ取得まで幅広くは使ってみるこというと、 正しい分析と良きデータ取得は不可分の関係にあるためです。

データ解析は統計学とどう違うとかと言うと、データ解析は統計学に加え施策の提案がその実施までをも含む、より実務への応用に重点を置いた概念と言います。
ただし、統計学にそれらを含める場合もあるため、データ解析は広義の統計学であると考えて差し支えありません。

データファイル

データファイルはデータを格納したコンピュータ上に保存されて電子ファイルのことです。
データファイルの多くはEcxelのような表形式を取ります。
他にも JSON 形式やXML形式、また、各種ツール独自のファイル形式があります。

ケース

データの1単位のことで、アンケートをとった場合は1回答者、 Web サーバーのアクセスログの場合は1アクセスのことです。
表形式のデータの場合、1行分のデータに当たります。
1行分のデータのことを指してローデータ(raw data)と言えば未加工の「生(raw)」データを指します。

変数

データの各項目のことです。
表形式のデータの場合、列が変数となります。
アンケートの場合、各質問項目が変数となります。
ケースごとに変わり得る数なので変数と呼びます。
「売上に利く変数」 といった場合は、「売上に(他の変数と比較して)特に関係がある項目」という意味です。
分析によって明らかにしたい変数を目的変数、目的変数の大小や増減など説明するための変数を説明変数と呼びます。
例えば、コーヒーの売り上げを価格や気温から予測した場合、売上が目的変数、価格や気温が説明変数となります。
説明変数のなかでも操作可能な変数を特に操作変数と呼びます。
ここではコーヒーの価格が操作変数です。

確度・精度

確度は、予測値や測定値が真の値にどれくらい近いかを表す度合いです。
ほとんどの場合、予測値や測定値は真の値からずれます。
このズレのことを誤差といい、予測値と将来時点の実際の値とのズレを予測誤差、測定値と真の値との誤差を測定誤差と言います。
この誤差が小さいほど「確度が高い」、あるいは「バイアス(偏り)が小さい」と表現します。

精度は、予測や測定を複数回行った場合の結果のバラツキの大きさを表す度合いです。
バラツキが小さいほど「精度が高い」、あるいは「バラツキが小さい」と表現します。
制度という用語が実際に現場で用いられる時は何を指しているのかが曖昧なことが多く、精度と確度両方の意味をもったものとして用いられることが多いようです。
精度が何を指しているのかは、その都度確認しましょう。

確度と精度の関係

確度と精度の関係は良くならずの例えで表現されます。

  • 確度が高ければ高いほど、ダーツは的の真ん中に刺さります。
  • 精度が高ければ高いほど、ダーツが刺さる地点は同じ箇所に集まります。
  • 確度は高いが精度が低い場合は、ダーツが的の真ん中付近に散らばって刺さります。
  • 確度は低いが精度が高い場合は、ダーツが適当なところに集中して刺さります。

できるだけ確度も精度も高い方が望ましいですが、精度と確度はトレードオフ(どちらかをあげればもう一方が下がる)の関係にあることも多く、その場合は状況に応じてどちらをどの程度優先するかを決めねばなりません。

母集団とサンプル(標本)

データを取得する対象全体の事を母集団といい、そのうちの一部だけを取り出したものをサンプル(標本)と言います。

また、母集団からサンプルを取り出すことをサンプリングと言います。

何を母集団・サンプルと言うのかは文脈によって異なります。

日本全国のデータを対象にしている時に愛媛のデータだけを取り上げて参照する場合、愛媛はひとつのサンプルとなります。

ところが、愛媛全体を対象とする場合は愛媛が母集団になります

サンプルを利用する理由は、主に省エネのためです。
実際に知りたいのは母集団の情報ですが、母集団のデータを取得することが困難なケースが多いため、適切に取得した一部のデータでもって全体のことを推定しようというのが (推計)統計学の基本的な考え方です
ただし、 Web サービスの場合は全利用者、つまり母集団のデータが取得できることも多々あります。
標本を適切に取得するのは統計学の知識が必要であるため、母集団の情報を利用できるならばそれを利用するのがよいでしょう。

サンプルサイズとサンプル数

サンプルサイズは個々のサンプルの大きさであり、サンプル数はサンプルの個数のことです。
化学実験で例えると、サンプルサイズをビーカーに入っている試料の量の大小を表すものであり、サンプル数はビーカーラン何本あるかを表すものです。
よく混同されるため、場合によっては注意が必要です。

母数

統計学における母数とは、確率分布を特徴づける量のことです。
例えば統計学でよく用いられる代表的な分布である「正規分布」は、平均と分散という2つの母数を与えると、それに応じた分布を生成することができます。
よく間違われるので注意しておきますが、
母数が分母でもなければ標本サイズでも標本数でもないということを覚えておいてください。

分析と解析

基本的に分析解析も同じ意味です。
慣用的に分析と解析が使い分けられているケースもあり、例えば「探索的データ解析」は大抵の場合「探索的データ分析」とは呼ばれません。 つまり、目的設定からデータ設計、施策の実施まで、データから価値を得るために必要なすべてのプロセスを「データ解析」とし、「分析」分析手法を適用することを指すこととします。
また、分析手法統計的な分析手法以外に、シュミレーションや数値解析、代数的手法などがあります。
ただ、「データを用いて分析を行う」という時には統計的な手法を指すことが多いでしょう。
他はデータを利用しないケースが多いからです。
とはいえ、昨今は様々な分野の混合手法もあります。

統計モデル

ここでは、データ解析における基礎の考え方である「統計モデル」について説明します。
統計モデルとは「現象を説明する論理的な仕組み」のことであり、言い換えれば現実を何らかの形で切り取って数式に落とし込んだものです。
売上を最大化したい、サービスの問題点を把握したいというとき、物事を漠然と捉えていては具体的にどこをどのように改善すればよいかわかりません。

  1. 捉えようとしている対象にはどのような要素があり、
  2. その各々の要素が対象と他の要素に対してどのように作用しているのか

この2つを理解することによって、具体的に何をどうすれば良い良いかが明確になります。

つまり、目標売上を達成したいという目的に対して具体的にどの変数が重要なのか、 Web サービスであれば重要変数は顧客単価なのか利用者数なのか、逆に売上にあまり効かない変数はどれなのかを見出し、より重要な変数をどの水準まで伸ばせば目標売上に達するのかを論理的に把握することができます。
この統計モデルの概念は非常に抽象的であるため、この先の内容は一旦目を通しただけで理解できなくても先に進んで問題ありません

例えば、海水浴場の売店における夏のビールの販売個数を気温と価格、湿度で説明するモデルとして、次のようなものが考えられます。

ビールの販売個数 = 気温(℃) × 600 – 価格(円) × 20 – 湿度(%) × 0.1

これは、気温が1度上がるはビールの販売個数が600個増える、つまり気温が上がれば上がるほど販売個数が増え、逆に価格と湿度が上がれば上がるほど販売個数が減ることを表現したモデルです。
また、気温と価格が販売個数に大きな影響を与える重要な変数であり、それに比べると湿度が与える影響は微々たるものだということがわかります。
このように表現することによって、各要素がビールの販売個数に対してどのように効いているのか(上昇要因なの下降要因なのか)、さらにはどの程度利くのか、気温がどの程度下がれば販売個数がどの程度になるかまでの予測すら可能になります。
このモデルを元に、 気温や価格によって過不足ない入荷数はどの程度なのかを見積もることができます。

モデルを自力で組み立てられるようにするため、この例をもう少し掘り下げて考えてみます。

まず、モデルを組み立てるには売店の販売個数を構成する要素は何なのかを調べる必要があります。
ここでは、過去のデータから「その日の気温」と「ビールの価格」と「湿度」の3つが構成要素だと判明したとします。
もちろん他にも細いに様々な要素があるでしょう。
そしてこの3つの構成要素のなかでは湿度が気温や価格に対して微々たる影響しか与えない変数であることも分かります。
湿度のようにほとんど影響を与えない変数でも少しでもモデルの確度を高める変数は入れるべきでしょうか。

ここで注意が必要です。
モデルは現象を理解・説明するためのものであって、現象をそのまま反映させるものではありません同じ現象であっても、目的によってモデルの作り方や粗さは異なります。
日常的に利用されるモデルとして地図があります。
地図は地表を完全に表現したものではないどころか、地面の凹凸や景色など様々な情報を削ぎ落とした抽象的なモデルでしかありません。

それでも、現在地を把握し行きたい場所へたどり着くという目的に対して十分な効果を発揮します。
むしろ余計な情報があると混乱する場合もあります。
情報を必要最小限にとどめ、重要な要素に絞って表現することにより理解しやすくなります。
どれだけの様子があれば過不足ないか、モデルがどれほど現象をリアルに反映しなければならないかはケースバイケースです。モデルづくりをする時、よく陥るのが過度に現象を反映しようとして精密すぎるモデルを組み立ててしまい、解釈が困難になることです。
現象を解釈しやすくするのがモデルの目的であるため、モデルの変数の数が多すぎたり複雑すぎたりして解釈不能になってしまっては本末転倒です。

さて、売店の話に戻ります。
モデルは精密にしさえすれば良いというものではないという説明をしました。

先ほどの式において、湿度はほとんど影響を与えません。湿度自体0〜100までの範囲の値しか取りませんし、湿度に掛かる数(変数に掛かる定数を係数という)も小さいため、湿度が変化してもほぼ全体に与える影響は最小で0、最大で10と、他の変数に比べて微々たるものです。
どの程度の影響があれば変装残すべきなのかは手法や問題設定にもよるため一概には言えませんが、今回は湿度を除去し、気温と価格のみでモデルを作るとしましょう。
このように、 数ある変数のなかからどの変数を利用するか選択することを変数選択と呼びますが、これは簡潔さを保ちつつ表現力を持ったモデル作成するためには重要です。
変数選択を行い、湿度を削除したモデルは次のようになります。

ビールの販売個数 = 気温(℃) × 600 – 価格(円) × 20

ここで気温が25℃、価格が500円であれば、販売個数は 25× 600 – 500 × 20 で5,000個になります。
これで販売個数について明確に理解できるようになりました。さらに、販売個数に価格をかければ売上が算出できます。

売上 = 販売個数 × 価格

さて、この販売個数を展開(上の販売個数の式を売上の式に代入) すると

売上 = (気温(℃) × 600 – 価格 × 20 ) × 価格

となり、これが売店の売り上げを表すモデルになります。
このモデルを見ると、気温は販売個数だけでなく、売上においても増加要因だということが明確にわかります。
価格についたらどうでしょうか。先ほども見たように、価格は販売個数の減少要素です。しかし、価格を上げれば販売単価が上がるため、販売1個当たりの売り上げは増加します。
そのため、価格を上げれば売上が上がるのかそれとも下がるのかはこのモデルをパッとみただけではわかりません。ここで何らかの統計的手法を用いると、気温が25℃の場合は価格を375円にすると売上最大化できることが判明します。
(この簡単なモデルの場合は、微分だけで解けます。)価格に様々な値を入れて確かめてください

モデルから得られる目的変数の値はあくまでも予測値や理論値です。実際の値はそれらからある程度ずれるでしょう。
これをデータ解析では

実際の値 = 予測値 + 誤差

と表現します。
式を見てわかるように、実際の値と予測値が近いということは誤差が小さいことを意味します。
誤差が小さいモデルを、当てはまりの良いモデルと表現します。
分析手法によって、より当てはまりの良いモデルを探索することができます。
ただし、当てはまりの良いモデルが実際の現象を正しく説明していると限りません。単にたまたま当てはまりが良いだけであって、実際の現象とは各変数の重要度や影響の正負(目的変数を上げる方向に働くか下げる方向に働くか)が異なる場合もありえます。
モデルの実測値との当てはまりの良さと、それが真のモデル(現象の仕組みを正しく表現しているモデル)であるかどうかとは話が違います。
作成したモデルが現象を正しく説明しているかどうかは、他のデータで全く違う結果になったりしていないかなどの統計的な確認と、対象分野の知識と照らし合わせて解除可能かどうかという人手による確認との両面から行う必要があります。

参考資料:
データ解析の実務プロセス入門

著者:あんちべ

出版社: 森北出版

Follow Twitter Facebook Feedly
SHARE