確率変数という言葉は、統計学や時系列解析を学ぶときによく登場します。今回は、確率変数の基本的な表記方法や定義、期待値の計算についてのお話です。
確率変数とは
コインを投げでは、「表が出る (H)」か「裏が出る (T)」の2つの事象があります。事象が言葉や文字で表されていると、面倒なことがあるので、 「表が出たら1」「裏が出たら0」のように数値を対応させてみます。この場合、コインのことは無しにして、「0と1のどっちかの値が、確率的に出現する」と考えることができます。
同様に、サイコロを振る場合も「1の目が出る」「2の目が出る」などと、「目が出る」と考えるのではなく、「1, 2, 3, 4, 5, 6の何れかの値が、確率的に出現する」と考えることができます。
このように、試行の結果を数値として表す変数を確率変数といいます。
確率変数を表すときは、大文字 と、それに対応する小文字
を違う意味で使います。
- 大文字 (
)は確率変数を表します。どんな値になるか未定です (試行を行い、結果を観察するまでは値が決まりません)。確率変数には、値を代入できません。
- 小文字 (
)は試行の結果として実際に得られた値(実現値)を表します。こちらは、これまで数学で扱ってきた変数と同様の扱いです。
確率変数を とすれば、「
」は、値を代入しているのではなく、「 試行の結果 (確率のルールに従い)、
の値が1になる」という条件を表します。
一方で、確率変数 の実現値を表す
については、「
」は、「
に1を代入する」あるいは「
の値を1とする」という意味です。
最初は、大文字と小文字の使い分けが面倒かもしれませんが、この表現は、よく使われる確率変数のルールです。とはいえ、私が論文を書くときには、面倒なので大文字と小文字の区別をせずに、全部小文字で書くこともあります。大文字と小文字の使い分けは、絶対のルールではありません。
確率変数の種類
確率変数には次の2種類があります。
- 離散変数:とびとびの値をとる(例:コインの表裏、サイコロの目)
- 連続変数:連続した値をとる(例:身長、温度)
離散確率変数
離散確率変数 がとりうる値を
(
) とすると、
となる確率は
で与えられます。
離散確率変数の例1:コインを投げる場合
コインを投げて「表なら1」「裏なら0」とする確率変数の 個の実現値を擬似乱数として生成する関数をRで定義できます。
coin <- function(n){ x <- rbinom(n,1,0.5) # 擬似乱数の生成 return(x) }
この関数を定義した後、n
に自然数を代入し、coin(n)
を実行すると、n
個の結果が得られます。
この関数を実行する前に「何らかの値が出るとして」の状態を議論したいのであれば、確率変数の表現
を使います。
そして、coin(n)
を実行して、具体的な値を得たのであれば、その値は、
のように小文字で表します。
回目に、
となる確率を
,
となる確率を
とすれば、理想的なコインであれば、
と表すことができます。
離散確率変数の例2:サイコロを振る場合
サイコロの目を確率変数として扱う場合、次のように擬似乱数を生成する関数を定義できます。
dice <- function(n){ x <- ceiling(runif(n,0,6)) # 擬似乱数の生成 return(x) }
この関数を定義した後、dice(n)
を実行すると、n
個のサイコロの目が得られます。
回目に、
となる確率を
とすれば、理想的なサイコロであれば、
と表すことができます。
連続確率変数
確率変数 が連続的な値をとる場合、その確率は 確率密度関数 (probability density function)
を使って表されます。
は密度を表していて、確率はそのグラフが作る面積で与えられます。
あるいは、
これらの計算のように、 がとる区間を考えないと確率は存在しません。つまり、連続確率変数では、
のように1点の値をとる確率は、常に、
です。
確率密度関数 は、確率の合計が1になる必要があるため、
が成り立ちます。
確率密度関数の例1:ガウス分布(正規分布)
ここで、、
はパラメタで、それぞれ、平均と標準偏差に対応します。
ガウス分布に従う確率変数 をRで数値実験する場合、
rnorm(n, mu, sig)
を実行すると、n
個の実現値が得られます。
ここで、mu
は 、
sig
は の値です。
確率密度関数の例1:一様分布(0から1の値をとる場合)
この一様分布に従う確率変数 をRで数値実験する場合、
runif(n)
を実行すると、n
個の実現値が得られます。
期待値の計算
期待値は、その確率変数がとりうる値を、確率の重み付きで計算したものです。。
離散確率変数の場合
離散確率変数 の期待値
] は以下のように求められます。
連続確率変数の場合
連続確率変数 の期待値
] は以下のように求められます。
最後に一言
今回の説明は、流れもイマイチで、半端は物語になってしまいました。未熟さを痛感しています。