データサイエンス基本編 | R | 母集団・標本・検定

一般的な結論を導く方法

母集団と標本そして、検定に先ほど描画したこの箱ヒゲ図の左端の英語の得点と右端の情報の特定に注目してみましょう。
箱の真ん中の横棒は中央値でしたが英語と情報では中央値の位置に差があるように見受けられます。


中央値だけでなく平均値を確認しても情報はだ低いように見受けられます。
ここから一般的に英語に比べて情報の平均点は低いと言えるでしょうか?
ここでたった”1つのクラスの成績”から一般的に”全国の高校生の結果”を結論をづけることができるか?
と言うと、現実的には無理と言うしかありません。
ただし、データサイエンスでは次のような考え方から、手元のデータをもとに一般的な帰結を導くことが行われています。
これを「統計的検定」と言います。

ここで重要になるのが母集団標本そして、検定という考え方です。

母集団と標本

全国の高校1年生の英語と情報の能力を知りたいとしても、国内の全ての高校生に同一試験を課すわけにもいきません。
そこで全国の高校生を代表しているであろう集団にのみ試験を課してその正式を調べます。
その集団の事を標本と言います。

これに対して高校1年生全員の集合を母集団と言います。
母集団を調べられない場合に標本を調べ後者の性質、具体的には平均値などから母集団の性質
つまり、平均値を推定しようとする分野を「推測統計学」と言います。

ただし、母集団を代表するような標本を正しく選択するのは実は難しいです。
全国の高校1年生を代表させるのに関東地方の高校生だけを調べるのは適切ではないでしょう。

では、全国の都道府県から1校ずつ選ぼうとすると、たまたま選ばれた高校のレベルによって標本から計算される平均値は左右されてしまいます。
標本の選択は実は難しいということは認識しておいてください。

さて、標本として選ばれた高校生たちの情報の平均点が40点、英語の平均点が50点であったとします。
単純には情報の平均点の方が10点低いわけです。
から一般に英語より情報の方が平均点が低い
つまり、高校生は情報が苦手だと言えそうな気がします。

けれども、これらは標本の平均点です。
母集団の平均点とは一致しないと考える方が自然です。

調べる方法がないわけですが、母集団では実際には英語の平均点は40点、情報は50点ということがあるかもしれません。
ただし、標本の選択が適切であったならば母集団の平均値とは一致しないものの、それほど大きく外れることはないはずです。

つまり、情報の標本平均値が40点だとすれば本当の平均値は例えば36点から44点にあるあろうと推測できるかもしれません

同様に英語の標本平均値から本当の平均値は46点から54点の範囲にあるだろうと推測できるかもしれません。
もし、これらの推定幅が正しいのであれば、情報の平均点は最大見積もって44点であり、英語の平均点は最小でも46点となるので、母集団についても情報の平均点の方が低いと判断できます

ただし、もっと厳密に言えば、このテストの50点相当が情報と英語で同じ程度の学力を表すことが保証されている必要があります。

このように標本から平均点が求めた平均点に差があるかどうかを調べる手法を“平均値の差の検定”と言います。

一般に母集団を代表する標本から求めた平均値から差の有無を調べることを「検定」と言います。

検定

差の有無を確認する方法

検定とは一般に次の手順で差の有無を確認します。

  1. 帰無仮説
  2. 対立仮説
  3. 検定

帰無仮説と対立仮説を順に立てます。

1.帰無仮説

帰無仮説とは差がないと考えることです。
端的に言えば平均値に差がないということです。

2.対立仮説

対立仮説は帰無仮説を否定した内容で、要するに平均値には差があるということです。
つまり、先ほどの情報と英語の例で言うと帰無仮説だと情報と英語の成績について2つの標本間で差はないことを言い、
対立仮説では情報と英語の成績について、2つの標本間で差があるという仮説を立てることになります。

つまり、検定の流れとしては、まず始めに
1.帰無仮説と対立仮説を立てる帰無仮説では二つに差がないとします。
その否定として対立仮説で差があると仮説を立てます。
その後
2.検定統計量を求めます。
具体的には標本の平均値を求めることです。
ただし、標本平均値は標本をとるごとに変動しますので標本平均値だけでなく、その変動幅がどれくらいあるのかを確率で判断します。
そして、
3.検定を行います。

帰無仮説のもとに標本の平均値の差が生じる確率を求めます。
これは正規分布などの性質を利用します。

この流れの中で最も重要なことは帰無仮説
つまり、差がないことを中心に考えるということです

例えば、情報と英語の成績について帰無仮説として標本での平均値に差がないと最初に仮定します。
しかし、実際に情報と英語の試験を標本の中で実施した場合に平均値には差が5点あったとします。
この5点という差がたまたま偶然に生じる可能性を確立にするわけです。
この確率をソフトウェアを使って求めるのですが、簡単に求めることができます。

この求めた確率を評価するために「基準」を設けます。
つまり、帰無仮説が正しいのか否かを評価する軸を定めているんです。
この基準の確立には一般に0.05が用いられます。
※医学などでは0.01なども使われます。

この確率が基準を超えているようであれば今回の標本からは差が認められるがこれは実質的な差ではないと判断します。
つまり、差はないと判断します。
専門的には帰無仮説を採択するといいます。

最も正確には今回の標本から差を見出すことができなかったということであり、母集団に差があるのかどうかを確かめることはできないとするのが厳密な考え方です。

一方、「基準」を下回っているようであればそもそも最初に差がないと仮定していたことが間違いだったと判断します
つまり、実質的な差があると判断します。
あるいは有意差があると表現します。
またこの帰無仮説が間違っていたことを帰無仮説を棄却すると言います。

Rでの検定の実際

Rではt.test()という関数を使って平均値に差があるかどうかを調べます。
t.test()関数の中にtests$English,tests$Information
を入力

検定
#検定
t.test(tests$English,tests$Information)

出力のP値(p-value)は0.05を下回っているので、0.05水準で有意な差があることがわかります。

そこで帰無仮説を棄却し対立仮説を採択します。
つまり、英語と情報の平均値には有意な差があり、情報の平均点が低いことがわかります。
ただし、このデータの場合、同一の生徒が英語と情報の試験を受けています。

一般に英語の成績の良い人は総じて情報の成績も良く、その逆も成立する可能性があります。

このような場合、情報の平均点全体と英語の平均点全体を比較するよりは、同一の個人の2つの平均点の差を比較した方が良いです。
これを対応のあるT検定と言います。

Rではpairdと=TRUEというオプションを与えることで実行できます。
では実際にやってみましょう。
t.test()関数の中にtests$English,tests$Information,(カンマ)paird=TRUEを入力

t検定
#t検定
t.test(tests$English,tests$Information,paired = TRUE)

それでは結果を確認してみましょう。

たまたま差が生じる確率を示すP値(p-value)は少し減少しています。

つまり、2つの教科での成績に差がないという帰無仮説の確率はより少なくなっており、より優位であると判断できます。
このように状況に応じて検定を使い分けることによって正確に有意差があるのかどうかを判断することが可能になります。

※母集団と標本に関する具体例を知りたい場合は、下記の記事を参考にしてください

参考リンク:

今さら聞けない母集団と標本の違いと使い方