ケィオスの時系列解析メモランダム

時系列解析、生体情報解析などをやわらかく語ります

【Rで統計入門】(5) 確率の難所、確率空間とσ-加法族:確率の入り口であきらめないで

 確率を勉強しようと意気込んで専門書を開いたものの、いきなり「確率空間」や「測度」、そして「σ-加法族 (しぐまかほうぞく)」といった謎の用語が出てきて、まるで呪文を読まされているような気分になったことが、私にはあります。「よし、確率を理解するぞ!」と前向きな気持ちだったのに、最初の壁の高さに圧倒されてしまう…… そんな敗北感を経験する人は、私だけではないはずです。

 私は昔、「 \sigma-加法族」という用語が、何の説明もなしにいきなり出てくる本を読んで、「これは無理だ……」とそっと本を閉じたことがあります。

 何かとんでもなく怖い話に感じるかもしれませんが、実際は、理解してみれば「なんだ、そんなことか」と拍子抜けするくらいの話です。大学で確率の勉強をはじめようとして、入り口で挫折する人を少しでも減らすために、ちょっとだけ「 \sigma-加法族」の話をします。

確率と集合の関係

 高校の数学で「集合」について勉強したと思います。集合とは、いくつかのものをまとめたグループのことです。たとえば、「サイコロを振ったときに偶数の目が出る」という事象を考えると、それは \{2, 4, 6\} という集合として表せます。 中括弧 \{\cdots\} で一緒に囲まれているものが、その集合のメンバです。中括弧の中には、メンバの一人一人 (個々の要素)をすべて書くこともあれば、言葉で書いたり、集合をいくつか書くこともあります。

 確率論では、このような集合 (事象)に対して「どれくらいの確率で起こるか?」を対応させます。たとえば、「偶数の目が出る確率は 0.5」という場合は、偶数の目の集合 \{2, 4, 6\} で表される事象が起こる確率に0.5を対応させるわけです。このとき、偶数の目が出る確率が決まっているんだったら、「奇数の目が出る確率」も当然決まっていないとおかしいです。「偶数が出る確率は決めたけど、奇数はまだ決めてない!」とか、「決められない」では、確率のルールが成り立ちません。つまり、ある集合に確率を対応させたら、そこに含まれないものの集合である補集合にも確率を対応させる必要があります。

 さらに、「1の目が出る確率」と「3の目が出る確率」を決めたら、それらをまとめた「1または3の目が出る確率」も決まっているべきです。確率は足し算ができる性質を持っているので、個別の事象だけでなく、それらをまとめた和集合にも、確率が和になるようにできる必要があります。

 そして、同じようなルールは「無限にたくさんの集合を考えた場合」でも成り立たないといけません。たとえば、試験の点数を考えて「40点以上」「50点以上」「60点以上」……と確率を決めていったとします。このとき、「どれか一つ以上に当てはまる確率」もちゃんと決められていないと、確率のルールが崩れてしまいます。

 以上は、当たり前のことで、何でわざわざそんなことを言うの?と感じるかもしれません。そんな当たり前のことが、「σ-加法族」の要請なのです。

σ-加法族の3つの条件

 確率をきちんと対応づけられる集合には、次の3つの条件が求められます。

  1. 「必ず起こること」と「絶対に起こらないこと」が含まれる

    • 確率を考えるなら、確実に起こる事象(確率1の全事象 (全集合))や、絶対に起こらない事象(確率0の空事象 (空集合))を含んでいないといけません。
  2. ある集合に確率をつけたら、「その逆の事象」にも確率をつけられる

    • 「偶数の目が出る確率」を考えたら、「奇数の目が出る確率」も考えないと確率のルールが不完全になってしまいます。 ですので、確率を与えられる補集合を必ず用意してほしいです。
  3. いくつかの集合をまとめたら、それも確率を持つようにする(無限の場合も)

    • 「1が出る」と「3が出る」に確率を与えたなら、「1または3が出る」にもそれらの和の確率を与えなければいけません (事象が互いに排反でなければ和になりません)。特に、無限に和集合をとる場合も適切に確率を与える必要があります。

 以上の3つの条件を満たす集合の集まりをσ-加法族と呼びます。

 何となくわかった気になったら、あなたが手にした本の記号の意味を解読しながら、この説明との対応を考えてみてください。

確率空間って何?

 σ-加法族がわかれば、「確率空間」もどうってことありません。確率空間は、「確率を考えるときに必要なルールをきちんと決めたもの」 です。

 たとえば、サイコロを振る場面を考えてみます。サイコロを投げると、1~6のどれかの目が出ます。このように、「どんな結果が起こりうるか」をまず決めます。そして、それぞれの結果に対して 「どんな組み合わせ (事象)を考えるか」 も決めておきます。その組み合わせ (事象)は集合で表されますので、それはσ-加法族である必要があります。さらに、「それぞれの事象がどのくらいの確率で起こるのか」も決めます。

 確率空間とは、この 「起こりうる結果」「確率をつける事象のルール」「確率の割り当て」 の3つをきちんと定めたものです。

確率空間の3つの要素

 確率空間を作るためには、次の3つのものを決めておく必要があります。

どんな結果が起こりうるか?(標本空間)

 これは「サイコロを振ったら 1, 2, 3, 4, 5, 6 のどれかが出る」「コインを投げたら表か裏が出る」といった、起こりうるすべての可能性を表すものです。これを 「標本空間」 と呼びます。英語では、Sample spaceと呼ばれるので、この集合を記号  S で表したりします。

例:

  • サイコロなら {1, 2, 3, 4, 5, 6}
  • コインなら {表, 裏}
  • 天気なら {晴れ, 曇り, 雨}

「どんなことが起こる可能性があるか?」をリストアップするのが最初のステップです。

どんな組み合わせ (事象)に確率をつけるか?

 次に、「どんな組み合わせ(事象)を考えるか?」を決めます。たとえば、サイコロなら「偶数が出る( \{2, 4, 6\})」「3以上の目が出る(\{3, 4, 5, 6\})」など、いろんなパターンが考えられます。確率論では、これらの組み合わせにきちんと確率をつけるために、「どの集合(事象)について確率を考えるか」をきっちり決めておく必要があります。それが、σ-加法族 です。

 簡単にいうと、「確率をつけるのに都合のいいルールを持った集合」のことです。サイコロの例なら、「偶数が出る」「奇数が出る」「1か2が出る」など、自然に確率を割り当てられる組み合わせを考えます。 そのような、事象の集合を、記号  \mathcal{F} で表したりします。

それぞれの事象の確率はどれくらいか?

 最後に、「各事象にどのくらいの確率を割り当てるか」を決めます。これを 「確率測度」 といいます。

 サイコロなら、それぞれの目が出る確率は 1/6 にします。コインなら表が出る確率 0.5、裏が出る確率 0.5です。

 確率を事象に対応させるときは、次のルールを守る必要があります。

  • どの事象の確率も 0 以上(確率はマイナスにはならない)
  • 必ず何かが起こるので、すべての確率を足すと1
  • 起こりえないことの確率は 0

 確率測度は、記号  P で表されたりします。確率測度  P は、事象に確率を対応させる関数とみなせます。

確率空間を表す謎の記号の意味

 以下では、コインを投げを例として、確率空間を表す謎の記号 \displaystyle{
(S, \mathcal{F}, P)
} との対応をまとめておきます。

1. 標本空間  S

標本空間  S は、すべての可能な結果の集合です。

 コインを投げたときの結果は、「表が出る(Hと書くことにします)」または「裏が出る(Tと書くことにします)」の2つしかないので、

\displaystyle{
S = \{H, T\}
}

です。

2. 事象の集合(σ-加法族) \displaystyle{
\mathcal{F}
}

事象の集合 [tex:\displaystyle{ \mathcal{F} は、標本空間の部分集合であり、確率を定義する対象となる集合です。

 コイン投げの場合、考えられる事象は以下の4つです。

\displaystyle{
\mathcal{F} = \{\emptyset, \{H\}, \{T\}, S\}
}

ここで、空集合 \displaystyle{
\emptyset
}(何も起こらない事象)や、全体集合 \displaystyle{
S
}(表または裏が出るという確実な事象)も含んでおく必要があります。

3. 確率測度 P

 確率測度 P は、事象に対して確率を割り当てる関数です。

 公平なコインなら、各基本事象の確率は次のようになります。

\displaystyle{
P(\{H\}) = 0.5, \quad P(\{T\}) = 0.5
}

確率測度は以下の性質を満たします。

  • 非負性\displaystyle{
P(A) \geq 0
}(すべての事象  A の確率は0以上)

  • 全体の確率は1\displaystyle{
P(S) = P({H}) + P({T}) = 0.5 + 0.5 = 1
}

  • 加法性: 互いに排反な事象 \displaystyle{
A, B
} に対して、 \displaystyle{
P(A \cup B) = P(A) + P(B)
}

 コイン投げのすべての事象の確率は、以下のように決まります。

\displaystyle{
P(\emptyset) = 0, \quad P(\{H\}) = 0.5, \quad P(\{T\}) = 0.5, \quad P(S) = 1
}

 これにより、確率測度がすべての事象に対して適切に定義されていることがわかります。

 以上のように、コイン投げの試行は、確率空間 \displaystyle{
(S, \mathcal{F}, P)
} を構成します。

最後に一言

 皆さんに誤解のないように説明できたか心配ですが、ここでお話しした内容は、感覚的にはごく当たり前のことに感じられるかもしれません。

 数学は、簡単なことでも難しく表現されがちで、取っつきにくい学問だと感じるかもしれません。しかし、一度理解してしまえば、「なんだ、そんなことか」と思うようなことも意外と多いものです。

 確率の本を読むことに最初から尻込みせず、辛抱強く取り組んでみてください。きっと理解が深まるはずです。