標本の抽出方法についてわかりやすく解説【統計入門】

ある対象について調査する方法は様々。全てのデータを調べる方法やいくつか標本を取る方法。いずれの方法にもメリット、デメリットがあり、調査対象や予算によって使い分けることが大切です。この記事では主に、標本調査から母集団の基本統計量を推定する際の、標本の抽出方法についてまとめています。推定の精度や予算は、標本の抽出方法によって決まります。
本日のメニュー
全数調査標本調査
単純無作為抽出法系統抽出法
層化抽出法クラスター抽出法
多段抽出法復元抽出
非復元抽出統計用語集
統計検定2級公式問題集 対応問題 2019年11月問6, 2018年11月問5問6, 2018年6月問6, 2017年11月問5, 2017年6月問5, 2016年11月問5, 2016年6月問6 ご購入はこちら

全数調査と標本調査

母集団についての基本統計量(平均、分散など)を求めるには、2つの方法があります。

全数調査
全数調査:母集団から全てのデータを調べ、基本統計量を求める。

メリット:正確 デメリット:お金、時間がかかる

[voice icon="https://hikitaro.com/wp-content/uploads/2019/06/40089718.2b41005ba0d1899a3f0bf130c1f85933.19060315-1-e1561226485604.jpg" name=“ユウガ” type="l"]小さい母集団(学校のクラス、会社の社員など)の場合にこの全数調査は有効ですが、大きい母集団(全国の中学生、日本の高齢者など)になると、莫大なコスト がかかってしまします。[/voice]

全数調査のイメージ
標本調査
標本調査:全体から一部を選んでデータを調べ、全体の基本統計量を推定

メリット:お金、時間が比較的かからない。 デメリット:精度が全数調査より低い。

標本調査のイメージ

標本調査は、全てのデータを調べるのが困難な時に、母集団の性質を推定することができます。このとき、正しい方法で標本を選ぶことにより、標本調査の精度を上げることができます。

標本調査の精度が高い=母集団の性質をよく反映している(標本と母集団の差=標本誤差 が小さい)

精度の高低を決めるのは、標本の抽出方法。偏りのない標本を抽出することによって、調査の精度が上がります。

逆に偏りのある標本だと、母集団の性質とはほど遠い、調査結果になる可能性があります。

偏りを少なくする標本の抽出方法

単純無作為抽出法:ランダムに標本を選ぶ

メリット: ・偏りが少なく、精度が高い(標本の抽出方法の中では1番と言われている)

デミリット: ・コストが高い ・標本数が少ないと、抽出されない層が出る可能性がある

単純無作為抽出は、もっとも偏りが少なくなると言われています。しかし、母集団の性質を推定するためには、多くの標本数が必要。例えば、視聴率調査を10家庭で行った場合、ある番組の視聴率は0%といったことも起こり得ます。これは、その番組を好む層からのデータを得られなかったことによります。

系統抽出法
系統抽出法:データに通し番号をつけ、一定間隔で標本を抽出する。

メリット: ・1回で抽出できるため、コストが低い

デメリット: ・名簿が必要 ・通し番号の付け方による、偏りの可能性

通し番号による偏りの例には、クラスの出席番号があります。全クラスから出席番号が3の倍数の人を標本として抽出し、全生徒の誕生日の分布を予測します。このとき、出席番号が誕生日によって決められていた場合、分布に大きな偏りを生じさせることになります。

系統抽出法のイメージ
層化抽出法
層化抽出法:母集団を、同じような性質を持つに分け、各層から無作為で標本を抽出する。

メリット: ・少ない標本で高い精度

デメリット: ・母集団の性質についての情報が必要

層は、年齢や性別、職種など様々。各層から標本を抽出して、そこからミニ母集団を作るというのが、この層化抽出法のイメージです。

層化抽出法のイメージ
クラスター抽出法
クラスター抽出法:母集団を小集団である、クラスター(集落)に分け、クラスターを無作為抽出。→選ばれたクラスター内を全数調査

メリット: 必要な情報が少ない。

デメリット: 同じクラスターに分類される標本は、似た性質を持ち、偏りを生じさせる可能性がある。

層化抽出法の「層」と違い、クラスターは母集団を偏りなく分けるものを指します。選ばれたクラスター内を全て調査というのがポイントです。同じクラスターに分類される標本は似た性質を持ちやすいので注意。例えば、全国の中学生の身長を調べる際、クラスターとして女子校が多く選ばれると平均値が過小評価されてします可能性があります。

クラスター抽出法のイメージ
多段抽出法
多段抽出法:母集団をいくつかのグループに分け、グループを無作為抽出→無作為抽出されたグループをさらにグループに分け、そのグループを無作為抽出→・・・→最終的に選ばれたグループから標本を無作為抽出

メリット: ・低いコストで行うことができる。

デメリット: ・段数が多いほど、精度が落ちる

多段抽出法は、クラスター抽出を複数繰り返し、最終的に選ばれたクラスターから無作為で標本を抽出するという方法です。段数が多いと標本に偏りが生じ、精度が落ちてしまいます。

多段抽出法のイメージ

復元抽出と非復元抽出

ここでは、標本を1つずつ取り出す場合について考えます。

標本を抽出した後の処理について、2つの方法があります。

復元抽出
復元抽出:標本を抽出→抽出したものを集団に戻す→標本を抽出

復元抽出では、1度選ばれた標本がもう一度選ばれる可能性があります。そのためこの確率が低い、大きな母集団の場合に使われます。

復元抽出のイメージ
非復元抽出

非復元抽出:標本を抽出→次の標本を抽出(抽出した標本は戻さない

非復元抽出は、母集団が大きい場合、小さい場合どちらとも使うことができますが、1回目の抽出が2回目の抽出に影響を与えます。5本のくじ(あたり1つ)を、1つずつ引く場合を考えてみます。1回目にあたりを引く確率は1/5ですが、2回目には1/4、3回目には1/3といったように、前の抽出が次の抽出に影響を与えます。

非復元抽出のイメージ

統計検定2級公式問題集 対応問題 2019年11月問6, 2018年11月問5問6, 2018年6月問6, 2017年11月問5, 2017年6月問5, 2016年11月問5, 2016年6月問6 ご購入はこちら