目次

総合情報学基礎第9回 (12/10)

連絡

標本調査法入門

学部で習う統計学は、無限母集団を前提とすることが多い、というよりは標本サイズが有限でないことを仮定することが多い。曰く、確率分布 <jsm>F\left(x\right)</jsm> からの標本サイズ <jsm>n</jsm>の無作為標本を <jsm>x_1, x_2, \ldots, x_n</jsm>とするとき、

しかし調査に関する統計学では、母集団の大きさ<jsm>N</jsm>は有限の値で、さらにその中から <jsm>n</jsm> 個の標本を調査して、母集団について推測する、という枠組みに基づかなければならない。例えば調査の規模を標本数 <jsm>n</jsm> で考えただけでも、日本の人口は1億2千万人強なので10億人の標本を得ることは不可能、調布市の人口は約22万人なので30万人の標本を得ることは不可能、といった風に、標本調査では標本数(標本サイズ、標本の大きさ、とも)<jsm>n</jsm>に <jsm>n<N</jsm> という上限がある。

また実際の計算はともかく、推定量や標本分布の定式化は非復元抽出に基づいて行うのが、通例である。非復元抽出は、壺の中に何色かに塗り分けた玉が沢山はいっているとして、1つの玉を取り出したら、それを壺に戻さずに、次の玉を取り出すような方法である。復元抽出では、1度取り出した玉は壺の中に戻し、さらに攪拌してから、次の玉を取り出す。両者の違いは、玉を取り出す時点での壺の中の玉の総数が、ひとつずつ減っていくか、減らずに当初の数のまま一定か、である。これを調査の現場に当てはめて考えたとき、自分が調査員として調査先を訪問することを想像しただけでも、標本調査では復元抽出は適用できないことがすぐに分かるはずである。同じ人に2枚以上の調査票に記入してもらうのも、同じ人に2回以上電話して世論調査に回答してもらうのも、いくら「無作為復元抽出ですから」と言っても、相手は同じことを2度尋ねられることを納得しないだろう。

さて、例えば単一母集団に対して、ある二値変数$X$に関する標本調査を実施するとしよう。

このとき標本調査法では

とすることを強く推奨する。標本平均の分散に <jsm>\left(1-\frac{n}{N}\right)</jsm> がかかるのが、母集団を有限とし非復元抽出を前提とする場合の統計学の特徴である。

これらのことを使ってみるために、以下の課題を課す。

  1. 大きさが10以上の母集団を2つ、2種類のコイン投げで作成する。母平均と母分散を計算しておく。
    1. 母集団ごとの標本サイズを3として、母集団ごとの標本抽出と母平均の推定と母平均の分散の推定を行う。
    2. 母集団ごとの標本サイズを6として、同様のことを行い、上の場合と比較する。
  2. コイン2種類分の母集団をすべて混ぜてしまい、母平均と母分散を計算する。
    1. 標本サイズが6の標本調査を行い、母平均の推定と母平均の分散の推定を行う。
    2. 上の2つの場合と比較する。

各項目とも、標本抽出は1回しか行わないことに注意する。たとえば <jsm>{}_{10}C_{3}</jsm> の組み合わせすべてについて、母平均の推定を行え、という課題ではない。