スチューデント (Student)のt分布は、統計学において小さなサンプルサイズで母集団の平均を推定する際に重要な役割を果たします。この分布の発見は、イギリスの統計学者ウィリアム・シーリー・ゴセット(William Sealy Gosset)の業績によるものです。 この…
Windowsのファイルパスではディレクトリ区切りに、バックスラッシュ「\」、あるいは、日本語環境では円マーク「¥」が使われます。一方、Rの文字列ではバックスラッシュ「\」はエスケープ文字として扱われるため、文字として「\」を表示したい場合は、「\」…
私たちがデータを統計的に処理するとき、そのデータの背後にある真の構造 (特徴や分布など) を見つけたいと考えます。たとえば、以下のような場合です。 選挙の結果を予測するために、一部の人の投票を出口調査して全体の傾向を推測する。 製品の不良品発生…
Empirical Mode Decomposition(EMD、経験的モード分解)は、時系列データをヒルベルト変換で扱いやすい振動成分に分解する方法です。ヒルベルト変換については,以下の記事も参考にしてください. 【Rで時系列解析】ヒルベルト変換で振動のエンベロープを抽…
確率変数という言葉は、統計学や時系列解析を学ぶときによく登場します。今回は、確率変数の基本的な表記方法や定義、期待値の計算についてのお話です。 確率変数とは 確率変数の種類 離散確率変数 離散確率変数の例1:コインを投げる場合 離散確率変数の例2…
確率を勉強しようと意気込んで専門書を開いたものの、いきなり「確率空間」や「測度」、そして「σ-加法族 (しぐまかほうぞく)」といった謎の用語が出てきて、まるで呪文を読まされているような気分になったことが、私にはあります。「よし、確率を理解するぞ…
このブログでは、「データの背後にある法則を見つける」という問いを強調してきました。そして前回の記事では、データが従う法則の一つとして確率分布があり、その分布のパラメタを推定する問題について考えました。この問題に対する有力な解決策の一つが、…
Rではベクトルに要素を追加する際に、「動的拡張」と「事前領域確保」の2つの方法があります。今回の、教訓は 処理を高速化したければ、事前に領域を確保しろ! ということです。「動的拡張」と「事前領域確保」について説明し、Rスクリプトで数値実験を行っ…
確率分布のパラメータを推定する方法のひとつとして、カール・ピアソン(Karl Pearson, 1857–1936)が導入したモーメント法があります。直感的で計算がしやすいこの手法は、統計学の黎明期に広く用いられました。しかし、聡明な皆さんの中には、「最尤法に比…
統計を使う調査では、多くのデータを集めることで、より信頼できる結果を得ることができます。たとえば、日本の国勢調査では、日本に住んでいるすべての人を対象に情報を集めます。そのように、対象となるすべての人やものを調査する方法を「全数調査」とい…