データサイエンス基本編 | 相関と回帰

データ分析では二つのデータの類似性あるいは関連性を調べたい場合があります。
例えば、ビールの売り上げと気温には密接な関係があると思われます。
あるいは、賃貸住宅の家賃は最寄り駅からの距離に影響を受けそうです。

このような関係を統計学では相関と呼びます。
2つのデータの類似性。あるいは、関連性を調べたい。

相関とは2つのデータセットについて、

“一方が増えると他方もやはり増える”or“一方が増えるにつれて他方が減る”などの関係を表す概念です。

前者を正の相関、後者を負の相関と呼びます。

ビールの売り上げと気温には正の相関が認められそうです。

相関が確認できると、その応用として、一方から他方を予測することができます。

例えば、ビールの売上と気温に正の相関があると判断できれば、ある日の気温からその日のビールの売上を予測することができそうです。実際の家計調査のデータから得た2016年1月のビールの売り上げと、その最高気温のグラフがこちらです。

これは X 軸の目盛りが気温に、また Y 軸のメモリは売上に対応しています。

グラフに描かれている点は、ある日の気温とその日の売り上げを表しています。

点はかなりバラついていますが、それでも左下から右上と増えて行くパターンを確認できそうです。

点のバラつきの、ちょうど真ん中あたりに直線を引いたのが、次の図になります。

この直線は回帰直線と呼ばれ y = ax + b という式で表されます。

直線上にぴったりと重なっているデータはありませんがそれでも気温の上昇と売上の増加に相関があることをこの直線は表していると言えます。

そこで例えば、気温が25°の日に売上がどれくらいと期待できるか知りたければ、この回帰式に気温を代入してみると分かります。

回帰式は比較的簡単な計算式で求めることができますが、統計ソフトに丸投げしてしまえば、自分では少しも計算する必要はありません。

では、距離から家賃を予測できるでしょうか?

賃貸住宅の家賃と駅からの距離の間には相関がありそうですが、これは難しそうです。

なぜなら、家賃は当然部屋の広さによって決まるからです。

そこで駅からの距離に加えて、部屋の面積という情報を加えることにより家賃の予測はより正確に行われそうです。

ここで少し復習をしてみると、ビールの売り上げと気温ではデータは1対1の関係でした。

これに対して「家賃」と「距離・面積」ではデータは1対2の関係です。

前者のようにデータが1対1の場合に売上を消去しようとする方法は単回帰分析と言います。

一方、後者のように家賃を2つ以上のデータから予測しようとする手法を重回帰分析と言います。

また予測しようとすると、目的変数予測の役に立てそうなデータを説明変数と言います。

ビールでは「売上」が目的変数で「気温」が説明変数です。

また、「家賃」は目的変数で「距離と面積」が説明変数になります。

現代のデータ分析では、説明変数が数十に及ぶことも珍しくありません。

回帰分析では何を目的変数。つまり、予測対象にするのか。またできるのか。

そして何を説明変数となるのか、成り得るのかを検討することが重要となります。

これをモデル化といいます。

モデル化の過程では意外な説明変数が目的変数の予測精度を上げることに気がつくことがあります。

正確な予測が可能になることも重要ですが、説明変数の重要度について知見を得るのも回帰分析の重要な役割です。