ケィオスの時系列解析メモランダム

時系列解析、生体情報解析などをやわらかく語ります

【Rで統計入門】(6) 確率変数:大文字と小文字の使い分け

 確率変数という言葉は、統計学や時系列解析を学ぶときによく登場します。今回は、確率変数の基本的な表記方法や定義、期待値の計算についてのお話です。

確率変数とは

 コインを投げでは、「表が出る (H)」か「裏が出る (T)」の2つの事象があります。事象が言葉や文字で表されていると、面倒なことがあるので、 「表が出たら1」「裏が出たら0」のように数値を対応させてみます。この場合、コインのことは無しにして、「0と1のどっちかの値が、確率的に出現する」と考えることができます。

 同様に、サイコロを振る場合も「1の目が出る」「2の目が出る」などと、「目が出る」と考えるのではなく、「1, 2, 3, 4, 5, 6の何れかの値が、確率的に出現する」と考えることができます。

 このように、試行の結果を数値として表す変数を確率変数といいます。

 確率変数を表すときは、大文字  X と、それに対応する小文字  xを違う意味で使います。

  • 大文字 (X)は確率変数を表します。どんな値になるか未定です (試行を行い、結果を観察するまでは値が決まりません)。確率変数には、値を代入できません。
  • 小文字 (x)は試行の結果として実際に得られた値(実現値)を表します。こちらは、これまで数学で扱ってきた変数と同様の扱いです。

 確率変数を X とすれば、「 X=1」は、値を代入しているのではなく、「 試行の結果 (確率のルールに従い)、X の値が1になる」という条件を表します。

 一方で、確率変数 X の実現値を表す x については、「 x=1」は、「 x に1を代入する」あるいは「 x の値を1とする」という意味です。

 最初は、大文字と小文字の使い分けが面倒かもしれませんが、この表現は、よく使われる確率変数のルールです。とはいえ、私が論文を書くときには、面倒なので大文字と小文字の区別をせずに、全部小文字で書くこともあります。大文字と小文字の使い分けは、絶対のルールではありません。

確率変数の種類

 確率変数には次の2種類があります。

  • 離散変数:とびとびの値をとる(例:コインの表裏、サイコロの目)
  • 連続変数:連続した値をとる(例:身長、温度)

離散確率変数

離散確率変数 X がとりうる値を  x _ i ( i=1,2, \cdots ,n) とすると、 X=x_i となる確率は

\displaystyle{
P(X=x_i)

}

で与えられます。

離散確率変数の例1:コインを投げる場合

 コインを投げて「表なら1」「裏なら0」とする確率変数の  n 個の実現値を擬似乱数として生成する関数をRで定義できます。

coin <- function(n){
   x <- rbinom(n,1,0.5)   # 擬似乱数の生成
   return(x)
}

 この関数を定義した後、n自然数を代入し、coin(n) を実行すると、n個の結果が得られます。

 この関数を実行する前に「何らかの値が出るとして」の状態を議論したいのであれば、確率変数の表現

\displaystyle{
\{X_1, X_2, \cdots, X_n\}
}

を使います。

 そして、coin(n)を実行して、具体的な値を得たのであれば、その値は、

\displaystyle{
\{x_1, x_2, \cdots, x_n\}
}

のように小文字で表します。

  i 回目に、 X _ i = 0 となる確率を  P (X _ i=0) ,  X _ i = 1 となる確率を  P (X _ i=1) とすれば、理想的なコインであれば、

\displaystyle{
\left\{\begin{array}{l}
\displaystyle P\left(X_i=0 \right)=\frac{1}{2} \\
\displaystyle P\left(X_i=1 \right) =\frac{1}{2}
\end{array}\right.
}

と表すことができます。

離散確率変数の例2:サイコロを振る場合

 サイコロの目を確率変数として扱う場合、次のように擬似乱数を生成する関数を定義できます。

dice <- function(n){
   x <- ceiling(runif(n,0,6))   # 擬似乱数の生成
   return(x)
}

 この関数を定義した後、dice(n) を実行すると、n個のサイコロの目が得られます。

  i 回目に、 X _ i = k となる確率を  P (X _ i=k) とすれば、理想的なサイコロであれば、

\displaystyle{
\left\{\begin{array}{l}
\displaystyle P\left(X_i=1 \right)=\frac{1}{6} \\
\displaystyle P\left(X_i=2 \right)=\frac{1}{6} \\
\displaystyle P\left(X_i=3 \right)=\frac{1}{6} \\
\displaystyle P\left(X_i=4 \right)=\frac{1}{6} \\
\displaystyle P\left(X_i=5 \right)=\frac{1}{6} \\
\displaystyle P\left(X_i=6 \right) =\frac{1}{6}
\end{array}\right.
}

と表すことができます。

連続確率変数

 確率変数 \displaystyle{
X
} が連続的な値をとる場合、その確率は 確率密度関数 (probability density function) \displaystyle{
f(x)
} を使って表されます。 \displaystyle{
f(x)
} は密度を表していて、確率はそのグラフが作る面積で与えられます。

\displaystyle{
P \left(a < X \leq b \right) = \int_a^{b} f(x)\, dx
}

あるいは、

\displaystyle{
P \left(x < X \leq x + \Delta x \right) = \int_x^{x+\Delta x} f(\xi)\, d \xi
}

これらの計算のように、\displaystyle{
X
} がとる区間を考えないと確率は存在しません。つまり、連続確率変数では、 X = x のように1点の値をとる確率は、常に、

\displaystyle{
P \left(X = x \right) = 0
}

です。

確率密度関数 \displaystyle{
f(x)
} は、確率の合計が1になる必要があるため、

\displaystyle{
\int_{-\infty}^{\infty} f(x) \, dx = 1
}

が成り立ちます。

確率密度関数の例1:ガウス分布正規分布

\displaystyle{
f(x) = \frac{1}{\sqrt{2\pi} \sigma} e^{- \frac{(x - \mu)^2}{2 \sigma^2}}

}

ここで、 \mu \sigma はパラメタで、それぞれ、平均と標準偏差に対応します。

 ガウス分布に従う確率変数  X をRで数値実験する場合、rnorm(n, mu, sig) を実行すると、n個の実現値が得られます。 ここで、mu \musig \sigma の値です。

確率密度関数の例1:一様分布(0から1の値をとる場合)

\displaystyle{
 f(x) = \begin{cases} 1 & (0 \leq x \leq 1) \\ 0 & ({\rm otherwise}) \end{cases}
}

 この一様分布に従う確率変数  X をRで数値実験する場合、runif(n) を実行すると、n個の実現値が得られます。

期待値の計算

 期待値は、その確率変数がとりうる値を、確率の重み付きで計算したものです。。

離散確率変数の場合

 離散確率変数  X の期待値  E[X] は以下のように求められます。

\displaystyle{
E[X] = \sum_{k} x_k \, P(X = x_k)

}

連続確率変数の場合

 連続確率変数  X の期待値  E[X] は以下のように求められます。

\displaystyle{
E[X] = \int_{-\infty}^{\infty} x \, f(x)\, dx

}

最後に一言

 今回の説明は、流れもイマイチで、半端は物語になってしまいました。未熟さを痛感しています。