統計を使う調査では、多くのデータを集めることで、より信頼できる結果を得ることができます。たとえば、日本の国勢調査では、日本に住んでいるすべての人を対象に情報を集めます。そのように、対象となるすべての人やものを調査する方法を「全数調査」といいます。全数調査では、もしすべての人が正確に回答すれば、その結果は日本の人口や生活の実態を正しく示すことになります。
しかし、調査の目的によっては、大まかな傾向が分かれば十分な場合もあります。また、調査にかかる費用や時間の関係で、全数調査が難しいこともあります。そのような場合、一部の人やデータだけを選んで調査を行う方法があります。これを「標本調査」といいます。たとえば、テレビの視聴率調査や、内閣支持率の調査、選挙の出口調査などは、全数調査ではなく、標本調査によって行われています。そのような標本調査を使って、対象の全体像を探る統計的アプローチが、推測統計です。
推測統計における母集団と標本
推測統計では、調査対象となるすべての人やものの集まりを「母集団」と呼び、そこから調査のために選ばれた一部を「標本」と呼びます。統計の目的は、標本から得たデータをもとに、母集団全体の傾向を推測することです。たとえば、国会議員選挙や知事選挙の開票が始まると、すぐに「当選確実」と発表されることがあります。これは、出口調査で集めた標本の結果をもとに、母集団全体(すべての投票者)の投票傾向を推測しているのです。そして、全データを見るまでもなく、結果を予測できるということです。
標本を選ぶときには、できるだけ偏りがないようにすることが重要です。そのため、標本はランダム(確率的)に選ぶことが望ましいです。そのように、無作為に標本を選ぶ方法を「無作為抽出」といいます。特に、母集団のすべての要素が同じ確率で選ばれる場合を「単純無作為抽出」と呼びます。
また、調査対象がはっきりしていて、対象となる個体 (人)の総数が限られている集団を想定する場合、その母集団を「有限母集団(または実在母集団)」といいます。たとえば、ある学校の全生徒や特定の工場で生産されたある製品の全数などが該当します。一方、科学実験や測定のように、何度でもデータを集められる場合、その母集団は「無限母集団」とみなすことがあります。たとえば、コインを投げる実験では、何回でも繰り返しデータを集められるため、無限回実験を繰り返したはてにある無限母集団を想定します。
さらに、調査結果の正確さは、標本の大きさにも影響されます。標本が小さすぎると、偶然の影響を受けやすく、正しい推測が難しくなります。そのため、統計分析では、適切な標本の大きさを選ぶことが重要です。一般的には、標本の数が多いほど、母集団の特徴を正しく推測できる可能性が高くなります。ただし、調査には費用や時間がかかるため、コストとのバランスを考えながら、適切な標本サイズを決める必要があります。
標本の選び方によって、推測の精度や信頼性が変わってきます。無作為抽出のほかにも、「層別抽出」「系統抽出」「クラスタ抽出」など、さまざまな方法があります。標本については、調査の目的や母集団の特徴に応じて、最適な方法を選ぶ必要があります。
標本の選び方
標本を選ぶ方法にはいくつかの種類があり、それぞれの特徴に応じて使い分けられます。
無作為抽出は、調査対象の中からランダムに標本を選ぶ方法です。たとえば、全国の学生の中から100人を選ぶとき、くじ引きのようにすべての人が同じ確率で選ばれるようにします。この方法はとても公平ですが、偶然によって特定の地域やグループに偏ることもあります。
層別抽出は、調査対象をいくつかのグループ(層)に分け、それぞれのグループからバランスよく標本を選ぶ方法です。たとえば、全国の市町村を対象に調査を行う場合、大都市ばかりが選ばれると、結果が都市部に偏ってしまう可能性があります。そこで、都市の規模ごとに「大都市」「中規模都市」「小さな町や村」といった層に分け、それぞれから適切な割合で標本を取ることで、地域のバランスを保つことができます。こうすることで、大都市だけでなく、中小の町や村の意見も反映され、より正確なデータが得られます。
系統抽出は、調査対象を一定の順序で並べ、一定の間隔ごとに標本を選ぶ方法です。たとえば、学校の名簿があったとき、最初に無作為に1人を選び、その後は10人ごとに標本を取るといったやり方です。この方法は、無作為抽出よりも簡単に標本を選べますが、もし名簿の並び順に何らかの規則性がある場合、結果に偏りが出ることがあります。
クラスタ抽出は、調査対象をいくつかのグループ(クラスタ)に分け、その中からいくつかのグループを無作為に選び、そのグループの全員を調査する方法です。たとえば、全国の学校の生徒を対象に調査を行う場合、すべての学校から少しずつ標本を取るのではなく、無作為に選んだ10の学校を対象とし、その学校の全生徒を調査する方法です。この方法は、移動や調査の手間を減らせるという利点がありますが、選ばれた学校の特徴が他と大きく異なる場合、全体の傾向を正しく反映できなくなることもあります。
以上のように、標本の選び方にはいくつかの方法があり、それぞれ長所と短所があります。調査の目的や条件に応じて、どのような方法が適切か考えてみてください。
「真の値」と「推定値」
推測統計では、存在を仮定する母集団の特徴が「真の特徴」です。しかし、私たちは母集団全体についての情報を直接知ることができないため、入手できた標本から計算した値で「真の値」を推し量ります。たとえば、ある集団に属するすべての人のデータを使って計算した平均というのは、その集団全体の実際の平均値、つまり「真の値」ですが、実際に全員のデータを集めることは難しいので、一部のデータ(標本)を使って平均値を計算することになります。この計算結果が「推定値」で、データに含まれるランダムなばらつきにより「真の値」からずれているかもしれません。
推定値はあくまで標本からの推測であり、選ばれた標本のセットが違えば、異なる結果になります。つまり、ばらつきます。一方、「真の値はたった一つ」ということで、真の値は、一つに決まっていると固く信じることにします (本当に一つかどうかはわかりませんので、疑うことも必要です)。
推測統計では、標本のデータを使って、真の値がいくつなのか、そして、どの範囲にあるのかを、推測します。
「点推定」 と 「区間推定」
推測統計には、1つの値を予想する「点推定」と、値の範囲を予想する「区間推定」の2つがあります。
矢で1点を狙う点推定
点推定では、標本のデータをもとに、母集団の真の値を「ひとつの数字で表す」ことを目指します。
たとえば、ある学校の生徒全員の平均身長を知りたいとします。しかし、全員の身長を測るのは大変なので、ランダムに30人を選んで調べた結果、平均171cm だったとします。この「171cm」が点推定の結果です。
みなさん、平均値の計算方法は知っていると思います。選ばれた30人が違えば、当然、平均の計算結果は変わってしまいます。ですので、ピタリと真の値と一致することは、なかなかないです。
網でとらえる区間推定
点推定で、真の値をピタリと当てるのは、ほぼ不可能です。そこで、1点ではなく、もうちょっとぼやかして、幅で推測する方法が 区間推定 です。
区間推定では、「本当の平均は この範囲のどこかにあるはず」という形で推測します。例えば、上の例で「95%の確率で 167cmから174cmの間に本当の平均がある」といった形で示すのが 区間推定 です。
この範囲を 信頼区間 と呼びます。「95%の信頼区間」とは、「もし何回も別のサンプルを取って同じ計算をすれば、そのうち 95%の確率で本当の平均がこの範囲に入るはず」という意味です。
Rで真の平均値を推定
下の方に掲載したRスクリプトの例では、正規分布に従う母集団を仮定し、その標本データを使って平均を推測しています。このスクリプトを実行すると、下のような図が描かれます。 この図中の青矢印が平均の点推定結果を表し、横に広がった青バーが平均の95%信頼区間を表しています。赤矢印の値が真の平均です。今回は、推定の詳しい方法は説明しません。
このRスクリプトを何度か実行して、母集団と標本、点推定と区間推定の違いをイメージしてみてください。
############################## # 母集団の特徴(真の値) ############################## # 平均 mu <- 9 # 母平均 # 標準偏差 SD <- 2 # 母標準偏差 ############################## # 真の分布の描画 ############################## pdf.max <- dnorm(0, 0, SD) # 空のプロットを作成 plot(c(), c(), xlim = c(mu - 4.5 * SD, mu + 4.5 * SD), ylim = c(-pdf.max / 10, pdf.max * 1.1), xlab = "x", ylab = "Density", las = 1, xaxs = "i") # 母平均の線 (ピンクの破線) lines(c(mu, mu), c(0, dnorm(0, 0, SD)), col = "lightpink", lty = 2, lwd = 2) # x軸の基準線 abline(h = 0, col = gray(0.7), lwd = 2) # 母集団の正規分布曲線 curve(dnorm(x, mu, SD), xlim = c(mu - 4.5 * SD, mu + 4.5 * SD), lwd = 2, col = 2, add = TRUE) ############################## # 標本の抽出 ############################## N <- 20 # 標本サイズ sample_data <- rnorm(N, mean = mu, sd = SD) # N個のサンプルを生成 # 標本データの描画(プロット) points(sample_data, rep(0, N), pch = 16, col = rgb(0.2, 0.4, 1, alpha = 0.5), cex = 1.5) ############################## # 推測統計:点推定と区間推定 ############################## # 点推定(標本平均) point_estimate <- mean(sample_data) # 標本の標準偏差を計算 s <- sd(sample_data) # 自由度 N-1 におけるt分布の上側97.5%点 t_value <- qt(0.975, df = N - 1) # 標準誤差の計算 std_error <- s / sqrt(N) # 信頼区間の幅(マージンオブエラー)の計算 margin_error <- t_value * std_error # 信頼区間の下限と上限を計算 ci_lower <- point_estimate - margin_error ci_upper <- point_estimate + margin_error ############################## # プロットへの信頼区間の描画 ############################## # 点推定の位置を矢印で示す arrows(point_estimate, pdf.max / 8, point_estimate, pdf.max * 0.02, code = 2, angle = 30, length = 0.1, col = 4, lwd = 2) # 信頼区間の描画 arrows(ci_lower, pdf.max / 12, ci_upper, pdf.max / 12, code = 3, angle = 90, length = 0.1, col = 4, lwd = 2) # 数値の表示(点推定と信頼区間の下限・上限) text(point_estimate, pdf.max / 9, round(point_estimate, 2), pos = 3, col = 4, cex = 1.3) text(ci_lower, pdf.max / 10, round(ci_lower, 2), pos = 2, col = 4, cex = 1.2) text(ci_upper, pdf.max / 10, round(ci_upper, 2), pos = 4, col = 4, cex = 1.2) # 真の母平均の位置を矢印で示す arrows(mu, -pdf.max * 0.06, mu, -pdf.max * 0.02, code = 2, angle = 30, length = 0.1, col = 2, lwd = 2) # 真の母平均の値を表示 text(mu, -pdf.max * 0.05, mu, pos = 1, col = 2, cex = 1.3) # 凡例の追加 legend("topright", legend = c("Population distribution",sprintf("Sample (N=%d)",N)), col = c(2,rgb(0.2, 0.4, 1, alpha = 0.5)), pch=c(NA, 16), lwd = c(2,NA),pt.cex = c(NA,1.5)) ############################## # 結果の表示 ############################## cat("点推定(サンプル平均):", round(point_estimate, 2), "\n") cat("95%信頼区間:", round(ci_lower, 2), "〜", round(ci_upper, 2), "\n")
最後に一言
私が推測統計の考え方を初めて理解できたと実感したのは、蓑谷千凰彦先生の『推測統計のはなし』を読んだときでした。とても素晴らしい本なのですが、なぜか絶版になっています。ぜひ、皆さんにも読んでいただきたい一冊です。
蓑谷千凰彦先生の本は、どれも私にとってちょうどよいレベルで、すんなりと理解できます。統計の本には、極端にやさしい入門書か、非常に難解な数理統計学の専門書が多いように感じます。その中間を埋めてくれたのが、蓑谷千凰彦先生の本でした。直接お会いしたことはありませんが、ここで心から感謝の気持ちを表したいと思います。