ケィオスの時系列解析メモランダム

時系列解析、生体情報解析などをやわらかく語ります

【Rで統計入門】(8) スチューデントのt分布:スチューデントはゴセットのペンネーム

スチューデント (Student)のt分布は、統計学において小さなサンプルサイズで母集団の平均を推定する際に重要な役割を果たします。この分布の発見は、イギリスの統計学者ウィリアム・シーリー・ゴセット(William Sealy Gosset)の業績によるものです。

 この記事は統計の説明が中心ですが、スチューデントのt分布は、時系列解析や複雑系の物理を考える上でも重要な基礎を教えてくれます。スチューデントのt分布の数学的な基礎は、確率変数どうしの掛け算や割り算の振る舞いにあります。とりあえず、t検定を使いたい人はこの記事を読む必要はありません。今回は、スチューデントのt分布を理解したい人向けのお話です。

ウィリアム・シーリー・ゴセットの物語

 数式の説明ばかり登場しても、面白くないので、スチューデントのt分布の発見物語についても書いておきます。私からのメッセージは「生き方から学べ」です

 1876年6月13日、イングランドのケント州カンタベリーに生まれたウィリアム・シーリー・ゴセット(William Sealy Gosset)は、名門ウィンチェスター・カレッジ(Winchester College)で教育を受けた後、オックスフォード大学ニュー・カレッジ(New College)に進学し、化学と数学を専攻しました。ウィンチェスター・カレッジは、オックスフォード大学ニュー・カレッジと創設者が同じであり、そのため学術的探求心の強いゴセットがニュー・カレッジに進んだのは、ウィンチェスターでの教育の自然な延長でした。在学中から実験科学と統計への関心が強く、実用的な問題解決への姿勢を早くから備えていました。

 そのころのイギリス(ヴィクトリア朝時代中期 1837〜1901年)の社会情勢は、産業革命後の高度成長と帝国主義の進展の中で、社会的・政治的・経済的な変化が活発に進んでいた時期です。イギリス経済は産業革命後の成熟期にあり、世界的な経済大国としての地位を確立していました。この時代、イギリスは「世界の工場(the workshop of the world)」と称されるほど、製造業・貿易・金融のあらゆる分野で世界をリードしていました。主要産業としては石炭・鉄鋼・繊維(特に綿製品)が依然として中心的な役割を果たしており、国内の工業地帯(例:マンチェスターバーミンガム、シェフィールド)では大規模な工場が稼働し続けていました。また、蒸気機関の普及によって生産効率が飛躍的に向上し、製品の大量生産が可能となったことから、輸出産業も大きく発展しました。鉄道網の整備は国土の隅々まで進んでおり、物資や人の移動が以前よりも格段に容易になっていました。さらに、電信技術の発展によって国内外の情報流通が加速し、商業活動や株式市場、保険などの近代的な金融システムも高度に発達していました。ロンドンはこの時期、事実上の世界金融の中心地であり、イギリスの投資資本はアメリカやインド、ラテンアメリカなど世界各地に流れていきました。

 話は横道にそれますが、そのころ日本は明治維新(1868年)後の激動期にあり、近代国家としての体制を急ピッチで整備している最中でした。この時期の日本は、長い江戸時代の鎖国体制を脱し、西洋文明の積極的な導入と中央集権的な国家構築を進めていました。経済的にはまだ本格的な工業化には至っていなかったものの、殖産興業政策のもとで製糸・製鉄・造船などの産業が徐々に育成されつつありました。政府は鉄道や郵便、電信といったインフラ整備を進め、西洋技術を導入するために多くのお雇い外国人を招いて教育や技術指導を行っていました。1876年には「廃刀令」が発布され、士族が刀を差すことを禁じられるなど、封建的身分制度の解体が進み、武士階級の特権が次第に失われていきました。これに反発した士族による反乱(例:神風連の乱秋月の乱萩の乱)が相次ぎ、翌1877年には西南戦争が勃発するなど、社会の混乱と近代化の狭間で揺れる時代でもありました。また、教育制度の整備も進められ、1872年の学制発布に続き、初等教育の普及が目指されました。これにより、日本国内でも読み書きの能力が広まり、近代的な国民国家の基盤作りが着実に進んでいきました。そんな日本に対し、西洋では統計的思考の重要性がすでに認識されていました。イギリスでは、産業の発展や帝国の統治において、経験や勘に頼るのではなく、データに基づいた合理的な判断が求められ始めていたのです。

 ゴセットは1899年に大学を卒業後、アイルランド・ダブリンのアーサー・ギネス社に化学者として入社しました。ギネス社は、アイルランド・ダブリンのセント・ジェームズ・ゲート醸造所を拠点にビールを製造する企業です。1759年、創業者アーサー・ギネスがこの醸造所のリース契約を結び、現在のギネス・ビールの歴史が始まりました。特に「ギネス・スタウト(Guinness Stout)」は世界的に有名な黒ビールです。ギネス社は当時としては非常に先進的な企業で、品質管理や原料の選別に科学的手法を取り入れていました。ゴセットは、発酵過程の管理、大麦の品種評価、製造プロセスの改善など、さまざまな課題に統計学的アプローチを導入しました。ギネス社に入社後、ゴセットはビールの品質を安定させるための実験的研究を担当し、特に発酵過程や原料の品質管理に統計的手法を導入しようとしていました。しかし、醸造という現場では、繰り返し試験のコストや手間の問題から、大規模な標本を取ることができず、少数の観測値から信頼できる推定を行う必要があったのです。

 このような制約の中でゴセットが直面したのは、小標本(small sample)に基づく推定の信頼性という問題でした。当時主流だったカール・ピアソン (Karl Pearson)らの統計手法は、大標本を前提としたものでした。

 たとえば、母集団が平均 \displaystyle{
\mu
}、分散 \displaystyle{
\sigma^ 2
}正規分布 \displaystyle{
X \sim N(\mu, \sigma^ 2)
} に従うとして、\displaystyle{
n
} 個の独立な標本

\displaystyle{
X_1, X_2, \cdots, X_n
}

から、標本平均

\displaystyle{
\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i
}

の信頼区間を推定する問題を考えてみます。

 この場合、中心極限定理により、\displaystyle{
\bar{X}
} は平均 \displaystyle{
\mu
}、分散 \displaystyle{
\sigma^ 2/n
}正規分布 \displaystyle{
\bar{X} \sim N(\mu, \sigma^ 2/n)
} に従います。

 今はパソコンで、正規分布に関する計算が簡単にできますが、昔の統計学の講義では「標準正規分布表」というのを使って、正規分布の確率を調べていました。 標準正規分布というのは、平均0、分散1の正規分布です。

 \displaystyle{
\bar{X}
} については、その平均値を引いて、標準偏差で割ってやれば標準化できるので、

\displaystyle{
\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0, 1)
}

となります。

 有限の標本からの推定では、分散 \displaystyle{
\sigma^ 2
} は未知ですが、\displaystyle{
n
} がある程度 (30以上くらい)大きいと、 不偏分散\displaystyle{
s^ 2
} や標本分散 \displaystyle{
S^ 2
} を使って \displaystyle{
\sigma^ 2
} を近似することができます。したがって、信頼係数 \displaystyle{
(1 - \alpha)
} に対する母平均 \displaystyle{
\mu
} の信頼区間は、以下のようになります。

\displaystyle{
z_{\alpha/2} \cdot \frac{s}{\sqrt{n}} \le \bar{X} \le z_{\alpha/2} \cdot \frac{s}{\sqrt{n}} 
}

ここで、\displaystyle{
z _ {\alpha/2}
} は標準正規分布の上側 \displaystyle{
\alpha/2
} 分点です。たとえば、\displaystyle{
\alpha = 0.05
} のとき、 \displaystyle{
z _ {0.025} \approx 1.96
} です。

標本数30のときの標本平均の分布 (左)とt値の分布 (右)。(左) 母集団分布 (青破線)と標本平均分布 (赤実線)の理論曲線。(右) 数値的に求めたt値の分布 (ピンク)。ここでは、5万回標本平均の計算を繰り返してヒストグラムを推定。破線は正規分布

 大標本という前提のもと、

\displaystyle{
\frac{\bar{X}-\mu}{s/\sqrt{n}} \sim N(0, 1)
}

と近似しました。上図の右側は、 n = 30のときに、この左辺の値 (t値)の分布を数値的に見積もった結果です。 赤破線とピンクのヒストグラムがほぼ一致しているので、この近似は悪くないようです。

 では、この近似は小標本にも適用できるのでしょうか?

 ゴセットは自身で実験データを収集し、特に「大麦の品質評価」などにおいて、小標本の統計量の分布について数理的に検討し始めました。その結果、

\displaystyle{
\frac{\bar{X}-\mu}{s/\sqrt{n}} \sim N(0, 1)
}

の左辺に登場する t 値と呼ばれる推定量

\displaystyle{
t = \frac{\bar{X}-\mu}{s/\sqrt{n}}
}

の分布が、正規分布ではないことに気づいたのです。その分布が、我々が「t分布」と呼んでいるものです。下図の右側は、 n = 5のときに、t値の分布を数値的に見積もった結果です。 赤破線とピンクのヒストグラムにはずれがあります。そして、緑実線で描いたt分布と良く一致しています。

標本数5のときの標本平均の分布 (左)とt値の分布 (右)。(左) 母集団分布 (青破線)と標本平均分布 (赤実線)の理論曲線。(右) 数値的に求めたt値の分布 (ピンク)。ここでは、5万回標本平均の計算を繰り返してヒストグラムを推定。破線は正規分布。緑実線は自由度4のt分布。
 

 1908年、ゴセットは「Student」というペンネームで、t分布を導入する論文「The Probable Error of a Mean」をBiometrika誌に発表しました。Biometrika誌は1901年にイギリスで創刊された統計学の学術誌で、カール・ピアソン、フランシス・ゴルトン、ウォルター・ウェルドンの3人によって設立されました。当初は生物統計(biometry)の分野に特化していましたが、次第に統計理論全般を扱う雑誌へと発展しました。特に小標本理論や検定理論など、現代統計学の基礎を築く多くの重要な研究が本誌から発表されており、統計学の理論と応用の発展に大きな影響を与えました。

 ゴセットが論文で実名ではなくペンネーム「Student」を用いたのは、当時のギネス社が企業秘密を守るため、社員による実名での学術発表を禁じていたためです。このペンネームは現在でも広く親しまれており、「Studentのt分布」として知られ続けています。

 現在の推測統計の考え方では当然とされることですが、ゴセットは母集団の真のばらつき(分散)を小標本から正確に知ることができないという問題に気づきました。小標本において大きくばらつく平均値と標準偏差の推定量を使う場合、「正規分布を前提にしてはいけない」ということを数学的に示したのです。

 ゴセットの業績は後に、統計学者ロナルド・A・フィッシャー(Ronald A. Fisher)によって高く評価され、彼の理論構築にも大きな影響を与えました。フィッシャーは「分散分析(ANOVA)」や「確率分布の理論的枠組み」を整備する中で、ゴセットのt分布を重要な土台として位置付けました。二人の間には思想的な違いもありましたが、互いに深い敬意を持っていました。フィッシャーは「ゴセットは実験科学者の統計的思考の典型である」と称え、理論だけでなく実務への応用に長けたゴセットの姿勢を賞賛しました。

 ゴセットは穏やかで謙虚な性格で知られており、科学的成果を誇示することなく、着実に実務と理論の橋渡しを続けました。1905年にヘレン・マーガレット・クルックシャンク(Helen Margaret Crum-Keuchank)と結婚し、4人の子どもを育てながら、職業人としての責任を全うしました。家庭では子煩悩な父親として知られ、週末には子どもたちと自然散策を楽しむことも多かったと伝えられています。多忙な業務の合間にも学術交流を続け、ピアソン、フィッシャー、エッジワースなど当時の主要な統計学者と文通を交わしました。

 晩年はギネス社で主任研究者という管理職としても活躍し、統計的品質管理の先駆者として社内外で大きな信頼を得ていました。彼の開発したt検定は、工業分野のみならず農学・生物学・心理学など多くの分野で活用され、実験科学における統計的推論に革命をもたらしました。とりわけ、同時代の統計学者ロナルド・A・フィッシャーは、ゴセットのt分布を高く評価し、自身の分散分析(ANOVA)や統計的推定理論の中に組み込むことで、その応用範囲を広げました。二人の間には理論的な見解の違いもありましたが、フィッシャーはゴセットを「実験科学者の統計的思考の典型」と評し、現場の課題に根ざしたゴセットの姿勢に敬意を表していました。 ゴセットは1937年にギネス社を引退し、その翌年、1937年10月16日にロンドンで61歳の生涯を閉じました。彼の死後も「スチューデント」の名は、統計学における基本用語として広く知られ続けています。

 ゴセットは、数学者というよりもむしろ「問題解決者」でした。現場での実践を通じて統計学の限界を押し広げ、現代における実験計画法や品質管理の礎を築いたその功績は、今なお多くの分野で生き続けています。

Studentのt分布の確率密度関数

 自由度 \displaystyle{
\nu
} のStudentのt分布の確率密度関数は、以下の式で与えられます。以下では、Studentは省略して、t分布と呼びます。

\displaystyle{
f_{\nu}(t) = \frac{\Gamma\left(\frac{\nu + 1}{2}\right)}{\sqrt{\nu \pi}\;\Gamma\left(\frac{\nu}{2}\right)} \left(1 + \frac{t^2}{\nu} \right)^{-\frac{\nu + 1}{2}}

}

この関数は、上で紹介したt値の分布として導かれたものです。\displaystyle{
\nu
} は、t分布の形状を決めるパラメータで、標本サイズ \displaystyle{
n
} のとき、\displaystyle{
nu = n - 1
} となります。また、\displaystyle{
\Gamma(x)
} ガンマ関数です。

 t分布は、\displaystyle{
\nu \to \infty
} の極限で、正規分布になります。

(つづく)