全数調査 | 標本調査 |
単純無作為抽出法 | 系統抽出法 |
層化抽出法 | クラスター抽出法 |
多段抽出法 | 復元抽出 |
非復元抽出 | 統計用語集 |
全数調査と標本調査
母集団についての基本統計量(平均、分散など)を求めるには、2つの方法があります。
メリット:正確 デメリット:お金、時間がかかる
[voice icon="https://hikitaro.com/wp-content/uploads/2019/06/40089718.2b41005ba0d1899a3f0bf130c1f85933.19060315-1-e1561226485604.jpg" name=“ユウガ” type="l"]小さい母集団(学校のクラス、会社の社員など)の場合にこの全数調査は有効ですが、大きい母集団(全国の中学生、日本の高齢者など)になると、莫大なコスト
がかかってしまします。[/voice]
メリット:お金、時間が比較的かからない。 デメリット:精度が全数調査より低い。
標本調査は、全てのデータを調べるのが困難な時に、母集団の性質を推定することができます。このとき、正しい方法で標本を選ぶことにより、標本調査の精度を上げることができます。
精度が高い標本調査の例 標本平均から、学校の生徒の平均身長は150〜160cmであると推定→実際には154cm
精度が低い標本調査の例 標本平均から、学校の生徒の平均身長は120〜130cmであると推定→実際には154cm
精度の高低を決めるのは、標本の抽出方法。偏りのない標本を抽出することによって、調査の精度が上がります。
逆に偏りのある標本だと、母集団の性質とはほど遠い、調査結果になる可能性があります。
偏りを少なくする標本の抽出方法
メリット: ・偏りが少なく、精度が高い(標本の抽出方法の中では1番と言われている)
デミリット: ・コストが高い ・標本数が少ないと、抽出されない層が出る可能性がある
単純無作為抽出は、もっとも偏りが少なくなると言われています。しかし、母集団の性質を推定するためには、多くの標本数が必要。例えば、視聴率調査を10家庭で行った場合、ある番組の視聴率は0%といったことも起こり得ます。これは、その番組を好む層からのデータを得られなかったことによります。
メリット: ・1回で抽出できるため、コストが低い
デメリット: ・名簿が必要 ・通し番号の付け方による、偏りの可能性
通し番号による偏りの例には、クラスの出席番号があります。全クラスから出席番号が3の倍数の人を標本として抽出し、全生徒の誕生日の分布を予測します。このとき、出席番号が誕生日によって決められていた場合、分布に大きな偏りを生じさせることになります。
メリット: ・少ない標本で高い精度
デメリット: ・母集団の性質についての情報が必要
層は、年齢や性別、職種など様々。各層から標本を抽出して、そこからミニ母集団を作るというのが、この層化抽出法のイメージです。
メリット: 必要な情報が少ない。
デメリット: 同じクラスターに分類される標本は、似た性質を持ち、偏りを生じさせる可能性がある。
層化抽出法の「層」と違い、クラスターは母集団を偏りなく分けるものを指します。選ばれたクラスター内を全て調査というのがポイントです。同じクラスターに分類される標本は似た性質を持ちやすいので注意。例えば、全国の中学生の身長を調べる際、クラスターとして女子校が多く選ばれると平均値が過小評価されてします可能性があります。
メリット: ・低いコストで行うことができる。
デメリット: ・段数が多いほど、精度が落ちる
多段抽出法は、クラスター抽出を複数繰り返し、最終的に選ばれたクラスターから無作為で標本を抽出するという方法です。段数が多いと標本に偏りが生じ、精度が落ちてしまいます。
復元抽出と非復元抽出
ここでは、標本を1つずつ取り出す場合について考えます。
標本を抽出した後の処理について、2つの方法があります。
復元抽出では、1度選ばれた標本がもう一度選ばれる可能性があります。そのためこの確率が低い、大きな母集団の場合に使われます。
非復元抽出:標本を抽出→次の標本を抽出(抽出した標本は戻さない)
非復元抽出は、母集団が大きい場合、小さい場合どちらとも使うことができますが、1回目の抽出が2回目の抽出に影響を与えます。5本のくじ(あたり1つ)を、1つずつ引く場合を考えてみます。1回目にあたりを引く確率は1/5ですが、2回目には1/4、3回目には1/3といったように、前の抽出が次の抽出に影響を与えます。