今さら聞けない母集団と標本の違いと使い方

以前、データサイエンス基本編 | R | 母集団・標本・検定
について、母集団と標本について紹介させていただきました。
今回はその具体例についご紹介させていただきたいと思います。

改めて、統計を学ぶ上で抑えておくべきポイントとして、2 つの言葉を理解しておく必要があります。その言葉を母集団と標本です。

母集団

母集団は調査の対象となるすべてのデータの集合のことをいます。
そして、集められたデータは大文字の N で表されます。

標本

標本は母集団の一部を構成する要素のことを意味しており、小文字の n で表されます。

具体例:

ここでニューヨーク大学に入る学生の就職活動の見通しについて調査をする場合を考えてみましょう。
この場合における母集団はどうなんでしょうか?

大学に行き、すべての学生に声をかけたとしましょう。実はここで得られたデータというのは母集団にはなりません。なぜなら母集団を構成するニューヨーク大学の学生は今家にいる場合、移動中の場合、海外にいる場合、違うキャンパスにいる場合、アルバイトをしている場合といった場合が考えられます。もしくは今大学にいるけれども実は高校生という場合もあるかもしれません。つまり、母集団というものはその範囲を明確に規定することが非常に難しく、またそのデータを集めることの難しいのです。

その一方で標本は母集団と比べデータを集めるのに時間がかからず、さらにコストもかからないという特徴があります。
ですので、データの分析をする際、この 2 つの特徴が有益になるということから標本がよく用いられます。

では、実際に標本のデータを集めてみましょう。

大学のカフェテリアに行き、そこにいる学生に声をかけてみます。

具体的には50人の学生に声をかけてみることにしましょう。
ここで得られたデータというのはニューヨーク大学のカフェテリアで得られた標本ということになります。母集団というのはその範囲を規定するのが難しく、さらにデータを集めるの難しいという特徴があるので範囲を規定しやすくさらにデータの集めやすい標本がよく使われるのです。

実際何らかの分析をして結果を得る際その対象とするのは標本であることが非常に多いです。ただ標本集めるためにはそのデータが「正確」でなければいけません。そして、この場合において「正確」という言葉が意味するものは、その標本がランダム性と代表性という条件を満たしてるということを意味してます。ランダム性というのは「標本が完全に偶発的に対象から選ばれる」ということ意味しています。

また代表制というのは、「母集団から得られた標本がその母集団のデータを正しく反映しているか」ということを意味しています

先ほど50人にインタビューした場合について考えてみましょう。この場合では、結論としては残念ながらランダム性も代表性も満たしてないということがいえます。

まずランダム性に関しですが、これはカフェテリアにいた学生から抽出をしていますので偶発とはいません。なぜなら、カフェテリアで調査をする限りカフェテリアにほとんど来ないとという人は対象にならない可能性が非常に高くなってしまうからです。

では、代表性に関してはどうでしょうか?
これも満たしていないということがわかります。
なぜなら、大学のカフェテリアというのは学生以外も入ることができますので、その対象が母集団であるニューヨーク大学の学生とは限らないからです。

そうするとどうやってランダム性と代表性を満たしたデータを集めればいいのかと悩むかもしれません。

そこで一番確実な方法というのは、「大学の学生のデータベースにアクセスをして、そこからランダムに学生を選ぶ」ということです。

ただし、この方法を採用するには大学の協力を得なければいけませんので、現実的かどうかは少し疑問が残るかと思います。

参考リンク:

データサイエンス基本編 | R | 母集団・標本・検定