正規分布といえば、中心極限定理が教えるように、「多くの小さなゆらぎの総和」がつくり出す普遍的な形だ──これが広く知られた理解でしょう。しかし、正規分布には、それとはまったく異なる道筋から導かれる、もうひとつの美しい物語があります。
それは、
「与えられた制約のもとで、最も情報が少ない分布=最大エントロピー分布」 が正規分布になる
という事実です。
中心極限定理は、「足し算の世界」が生み出す普遍性を語ります。一方、最大エントロピー原理は「情報の欠如」、すなわち「何も知らないとすれば何がもっとも自然か」という、まったく別の視点から正規分布へとたどり着く道筋を示します。このように、異なる二つの道筋が同じ結論へと収束する──この驚くべき一致は、正規分布という曲線が私たちに語りかける意味を、よりいっそう深いものにしてくれます。
まずは、今回の主題である「最大エントロピー原理」を理解するための土台として、「情報」と「エントロピー」という概念から見ていきましょう。

1. 情報(surprise)とは何か ―「驚き」を数値化
エントロピーとは何かを理解するためには、まず「情報」とは何かを明確にする必要があります。1940年代、アメリカの数学者 クロード・シャノン(Claude E. Shannon, 1916–2001) は、通信における「情報量」を数学的に定義しようとしました。そのアイデアの核心にあったのが、surprise(サプライズ)という概念です。
シャノンは1916年にアメリカ・ミシガン州の田舎町で生まれました。幼い頃から機械いじりが大好きで、自宅の納屋にあった道具を使ってテレグラフ装置やラジオを自作するような“発明少年”として知られていました。1932年、高校を卒業するとミシガン大学に進学し、数学と電気工学を専攻します。そして、1937年(21歳)、MIT の大学院生だったシャノンは、世界を驚かせる修士論文を書き上げます。それは、リレー回路の動作がブール代数と同じ構造をもつという発見で、いま私たちが使うすべてのデジタル回路の理論的基礎となりました。「20世紀で最も重要な修士論文」と後に称される仕事です。
その後、1941年にベル研究所に移籍したシャノンは、急速に発展しつつあった長距離通信の理論化に挑みます。第二次世界大戦中には暗号解読や情報伝送の研究に従事し、そこで得た洞察がのちの情報理論の土台となりました。ただし、彼の研究スタイルはきわめて独特でした。同僚たちは、廊下でヨーヨーを回しながら難しい数式を考えるシャノン(1940年代)の姿をよく目撃したと証言しています。また、MIT 時代にはパイプをくわえたまま、一輪車で構内を移動した(1930年代後半)という逸話も残っています。研究の合間には自動チェス機や暗号装置、さらには火を噴くロケット式フラフープ(1950年代)まで作り上げるなど、発明家としての一面を終生失いませんでした。
そんな彼が、通信という問題の核心に迫ろうとしたときに着目したのが、「めったに起こらないことほど人は強く驚く」というきわめて素朴で普遍的な直観でした。驚きの量を数学的に定義できれば、雑音を含む通信路が本質的に運べる情報量の限界を決められる――シャノンはそこに突破口を見出したのです。
そして1948年、彼は歴史的論文「Communication Theory of Secrecy Systems」および「A Mathematical Theory of Communication」を発表し、情報理論を創始します。そこで登場したのが、後に「シャノンのエントロピー」と呼ばれる量でした。その中心にあったのが、事象の生起確率によって決まる surprise(驚き) という概念だったのです。
めったに起きないことが起きるほど、私たちはより強く驚く。頻繁に起きることには、ほとんど驚かない。
シャノンが着目したのは、まさにこの直感でした。どれだけ複雑な通信システムであっても、そこで扱われる基本単位は“事象が起こるかどうか”という単純な確率であり、驚きの大きさを測ることができれば、情報そのものを数量化できるはずだ、と考えたのです。
たとえば、弱い地震(震度1〜3)は日本では日常的に観測されるため、多くの人はほとんど驚きません。しかし、1000年に一度といわれる巨大地震や大津波が発生した場合、その衝撃は比べものにならないほど大きくなります。このように、起こりにくい(確率の低い)出来事ほど、大きな“驚き=情報量”をもたらすという感覚は、私たちの日常経験ともよく一致しています。
では、この直感的な“驚きの大きさ”を、数学的にどのように表現すればよいのでしょうか。これを数式として定量化するために、次のような条件を満たす関数を考えることにします。
事象
の確率が小さいほど、その情報量
は大きくなること。 特に、
- 確率 1 の事象(絶対に起こること)には驚きがないため、情報量は 0。
- 確率が 0 に近づくほど起こりにくくなるため、情報量は 無限大 に発散する。 つまり、情報量は 常に 0 以上であり、「起こりにくさ」とともに増大する量だと考えられます。
独立した事象
と
が同時に起こる場合、驚き(情報量)は加算されること。 すなわち、
が成り立つべきです。
このような性質を同時に満たす関数を探すと、事象 が起る確率
に対して情報量
を
(ただし、 は比例定数)
と定める形が、唯一の解として浮かび上がります。
2. なぜ surprise は
になるのか ― 加法性が導く唯一の解
独立事象 ,
の場合、同時確率は
です。
これらの「驚き」は加算されるべきなので
という条件が必要になります。
この関数方程式
を満たす関数は、数学的にただ一つ(比例定数を除く)で、
という形になります。
ここでは厳密な証明には立ち入りませんが、この関数が「必要条件として妥当か」を簡単に確かめてみましょう。 情報量を
と置くと、次の性質が自然に満たされていることがわかります。
① 絶対に起こる事象
では情報量はゼロ
とゼロになっています。確率 1 の出来事は「絶対に起こる」ため、驚きがゼロになるという直感と一致します。
② 起こりにくい事象
で、情報量は無限大
と無限大に発散します。極めて起こりにくい出来事ほど私たちが強い驚きを感じる、という性質をそのまま表しています。
③ 情報量がつねに正(0以上)
確率 では
なので、
であり、情報量が負になることはありません。
④ 独立事象の「驚き」は加算される
となるので、独立した出来事の情報量が足し算になるという要請も自然に満たします。
したがって、シャノンの「サプライズ=情報量」の考え方を最も自然に満たす形は、まさにこの対数関数であることがわかります。
比例定数 は単位の選び方に対応するので、慣例として
を採用すると、
となります。
3. エントロピーとは何か ―「無知の度合い」を測る
surprise がひとつの事象の“驚き”を表すなら、エントロピーは “平均的な驚き” (すべての事象についての情報量の平均) と考えることができます。
確率分布 が与えられたとき、平均情報量は
これが、シャノン型のエントロピーの定義です。
なお、情報理論ではエントロピーを 底 2 の対数 で表すことがよくあります。このときエントロピーの単位は bit(ビット)となり、「0 と 1 からなる符号(ビット列)で情報を伝えるとき、その平均的な必要ビット数」というごく直感的な意味をもつようになります。たとえば、エントロピーが 1 bit であれば、平均的に「1 回の 0/1 の選択」で情報を伝えられることを意味します。エントロピーが大きいほど、メッセージを伝えるために「より多くの文字列(ビット)」が必要になるというわけです。
物理学(熱統計力学)とのつながり
ここまで紹介してきたシャノンのエントロピーは、実は 19 世紀後半の物理学で登場したエントロピーの概念と深い関係をもっています。エントロピーという考え方は、1850 年代にドイツの物理学者ルドルフ・クラウジウス(Rudolf Clausius, 1822–1888) が導入したもので、エネルギーや物質がどれだけ広がり、元に戻りにくくなったかを示す指標です。
当時、エネルギー保存則は確立されつつありましたが、自然の変化には一貫して「戻らない方向」があることが問題になっていました。熱いコーヒーは自然に冷め、香水の香りは部屋全体に広がりますが、その逆は決して起こりません。クラウジウスは、この「不可逆性」を数量化するためにエントロピーを定義しました。
さらにクラウジウスは 1850 年代後半〜1865 年にかけて、熱力学の第 2 法則を明確にし、「孤立した系のエントロピーは決して減らない」という原理を確立しました。自然界の変化は、エネルギーや物質がより均一に広がり、取り出して仕事に使える余地が減っていく方向に進みます。そして、この広がり切った状態こそが 平衡状態 であり、そこでエントロピーは最大になります。平衡とは、もはや変化を生み出す偏りが一切残っていない、自然の流れがたどり着く最終地点です。
エントロピーは、この「自然がどちらへ向かうのか」と「最終的にどんな姿に落ち着くのか」を示す概念として、19 世紀の熱の理解に不可欠な役割を果たしました。こうしてエントロピーが熱現象の「向き」を決める量として受け入れられると、次に問われたのは「その正体はどこから来るのか」という、より根本的な問題でした。
この問いに挑んだのが、統計力学を創り上げた人物のひとりである、オーストリアの物理学者 ルートヴィヒ・ボルツマン(Ludwig Boltzmann, 1844–1906) です。
ボルツマンは、「巨大な粒子集団のなかで、同じ巨視的状態を実現する微視的な並び(状態)がどれだけあるか」に着目し、多様な状態が実現できるほど、その系は無秩序(=エントロピーが高い)と考えました。彼が導いた有名な式が次のものです。
ここで、
この式は象徴的な意味をもち、ウィーン中央墓地にあるボルツマンの墓碑には、まさにこの方程式そのものが刻まれています。物理学者の墓石に、業績を象徴する公式がそのまま刻まれることは極めて珍しく、ボルツマンという人物が後世に残した影響の大きさを物語っています。しかし、この偉大な式を残したボルツマンの人生は、決して安らかな道ではありませんでした。19世紀後半の物理学界では、原子の存在そのものを疑う研究者が多く、ボルツマンが提唱した統計力学的な見方は激しい批判にさらされました。とくに、哲学的立場から原子論に否定的であったエルンスト・マッハの影響は大きく、ボルツマンは学界で孤立し、科学的信念を守りながらも精神的に追い詰められていきました。晩年には鬱状態に悩まされ、家族と休暇で訪れていたイタリアのデュオーノで、1906年に自ら命を絶つという悲しい最期を迎えます。
皮肉にも、彼の死からわずか数年後、アインシュタインによるブラウン運動の理論(1905)やペランの実験を通じて、原子の実在はほぼ完全に証明されました。ボルツマンが生涯をかけて主張し続けた世界観は、彼の没後にようやく正しさを認められたのです。
墓碑に刻まれた
という一行は、単なる記念ではなく、自然界を確率と可能性の言葉で理解しようとした彼の思想そのものです。熱やエントロピーは粒子たちの膨大な可能性の重なりによって生まれるという統計力学の核心が、静かな石碑の中に凝縮されています。
そして驚くべきことに、20世紀半ばにシャノンが通信の不確実性を扱おうとして導いた情報エントロピーの式が、ボルツマン=ギブスのエントロピーと同じ数学構造を持っていたことが明らかになります。物理学における「自然の不確実さ」と、情報理論における「メッセージの不確実さ」が、深いところで同じ構造を共有していたのです。この一致は、科学史の中でも特に美しい、分野横断的な収束の物語として知られています。
ギブスによる一般化 ― エントロピーは確率分布の関数へ
ボルツマンの着想をさらに一般化したのが、アメリカの物理学者 ジョサイア・ウィラード・ギブス(Josiah Willard Gibbs, 1839–1903) でした。ギブスはしばしば「アメリカが生んだ最初の理論物理学者」と呼ばれますが、その人生はきわめて静かで、華やかなエピソードとは無縁でした。それでも、20世紀の科学に残した足跡は計り知れないほど大きく、アインシュタインやファインマンをはじめとする後世の科学者たちから「最も偉大な理論家の一人」と称賛されています。
ギブスは、1839年、コネチカット州ニューヘイブンに生まれ、生涯のほとんどを同じ町で過ごしました。1854年にイェール大学に入学し、1863年には同大学でアメリカ初の工学博士号(Ph.D.)を取得します。当時、アメリカには理論物理学の伝統がほとんど存在せず、ギブスは孤独な研究者でした。しかも、1871年にイェール大学で助教授に就任してから9年間、給料が支払われなかったという逸話まで残っています。にもかかわらず、彼はニューヘイブンの家と大学の間を歩いて通いながら、淡々と研究を続けました。
ギブスは社交的ではなく、会話は必要最小限、外見も質素そのもので、多くの同僚が「つかみどころのない静かな天才」と評しています。しかし、その内側では、数理物理学・化学熱力学・統計力学の根幹をつくり上げるようなアイデアが次々と生まれていました。彼は散歩を好み、散歩中に思いついた式をメモし忘れないように、ポケットに紙切れを常に入れていたといいます。また、後年の学生の証言では、ギブスの授業は驚くほど淡々としており、黒板に式を書いたあとに「見ればわかるでしょう」とだけ言って講義を進めたそうです。天才の頭にはすべてが見えていても、凡人には見えていない――そんな光景が容易に思い浮かびます。
彼の真価が世界的に認められるようになるのは、ほとんどすべての主要業績を発表し終えてからです。特に、1870年代〜1902年にかけて書かれた論文シリーズは、熱力学と統計力学の基礎を再構築するほどの深い内容でしたが、発表当時はアメリカ国外にほとんど知られていませんでした。ヨーロッパの物理学者がギブスの天才を知ったのは、マクスウェルがギブスの論文を絶賛し、内容を講義で紹介した(1870年代後半)ことがきっかけでした。
そのギブスが、ボルツマンの「状態数 の概念」をさらに一般化し、複雑な系でも扱える「確率分布としてのエントロピー」を導入しました。ギブスは、現実の系ではすべての微視的状態が等確率とは限らないことを鋭く見抜き、各状態に確率
を割り当てる枠組みを構築します。そして彼が導いた式が、次の形をもつエントロピーです。
この式は後にシャノンが導いた情報エントロピーとまったく同じ構造をもち、物理学における「状態の不確実さ」と、通信における「情報の不確実さ」が、まったく異なる問題設定の中でありながら、同じ数学的枠組みにたどり着いていたことを示しました。1940年代、シャノンが通信の世界で「情報の不確かさ」を測ろうとしたとき、導かれた式がギブスの統計力学の式と瓜二つであることに、多くの科学者が驚いたのも無理はありません。
「最大の無知」がもっとも合理的──最大エントロピー原理
物理学と情報理論という二つの世界の思いがけない一致を深く掘り下げ、エントロピーの持つ一般性を原理として位置づけた人物が、アメリカの物理学者 エドウィン・T・ジェインズ(Edwin Thompson Jaynes, 1922–1998) です。ジェインズはミズーリ州コロンビアに生まれ、第二次世界大戦中にはレーダー開発に携わった後、戦後にプリンストン大学でジョン・ホイーラー(John A. Wheeler)のもと博士号を取得しました(1950年)。その後、ワシントン大学(St. Louis)に長く所属し、研究と教育に情熱を注ぎました。
ジェインズの人柄は、天才肌でありながら大胆不敵、そしてどこか反骨的でもありました。彼は既成の統計力学の教え方に強い不満を持ち、「現代物理学者はエントロピーの本質を誤解している」と講義や論文で繰り返し主張しました。会議でも歯に衣着せぬ発言をすることで知られ、ときに議論を白熱させたといいます。その一方で学生には非常に熱心で、研究室のホワイトボードに膨大な数の図と式を書き続け、質問攻めにあうと目を輝かせて答えたという逸話も残っています。
彼はまた、エントロピーや確率の解釈に関する思索を、物理学だけでなく哲学の領域にまで広げた人物でした。ジェインズの教え子によると、彼はいつも確率に関する議論を「これは人間の知識をどう表すのかという問題なんだ」と切り出し、式よりも“意味”を重視したといいます。彼の講義ノートは後にまとめられ、名著 『Probability Theory: The Logic of Science』(遺稿として2003年出版)として世に出ました。
そんなジェインズが1950年代に打ち立てたのが、最大エントロピー原理(Maximum Entropy Principle) でした。ジェインズは、エントロピーを単なる物理量とみなすのではなく、むしろ「不確実性のもとで、最も偏りなく合理的な推論を行うための普遍的な原理」として解釈しました。与えられた情報(制約)だけを使い、余計な仮定を一切持ち込まないためには、その制約を満たす確率分布のうち、エントロピーが最大になるものを選ぶべきである――これがジェインズの洞察でした。
ジェインズによれば、限られた情報しか与えられていない状況では、その制約を満たす分布のうちエントロピーが最大となるものを選ぶべきだとされます。なぜなら、それこそが最も偏りが少なく、与えられた情報以外に余計な仮定を一切持ち込まない、いわば「無知であることに忠実な推論」だからです。ジェインズは、エントロピーをこのような「合理的推論の指針」として位置づけることで、統計力学の境界をはるかに超えた普遍性を持つ原理へと昇華させました。
4. 正規分布の導出 ―「平均と分散しか知らないとき、最も自然な分布」
では、この最大エントロピー原理を用いると、どのようにして正規分布が自然に姿を現すのでしょうか。ここからいよいよ、その核心へと踏み込んでいくことになります。
ジェインズが示した最大エントロピー原理に従うなら、私たちは「与えられている情報だけを使い、それ以外のことはいっさい推測で埋めない」という姿勢を貫かねばなりません。ここで扱う確率分布について、私たちが知っている事実は次の三つだけです。
- 確率分布は、連続分布である。
- 平均値が
であること。
- 分散が
であること。
そして重要なのは、この三つ以外には本当に何も知らないという点です。形が対称かどうかも、裾が重いか軽いかも、実際にどのような物理過程が背後にあるかも、いっさい情報として与えられていません。この「限られた情報しか持たない」状況で、ジェインズの原理が求めているのは、もっとも無知であることに忠実な分布です。その判断基準となるのがエントロピーであり、連続分布の場合は
で定義されます。
つまり、平均と分散という二つの制約を満たす確率密度関数 のうち、エントロピーを最大化する分布を求める――これが、最大エントロピー原理から正規分布を導くための出発点となります。
ここから、驚くほど自然に正規分布が姿を現すことになります。
ラグランジュ未定乗数法によるエントロピー最大化
それでは、最大エントロピー原理を数学的に実行していきしょう。
私たちが知っているのは「平均 と分散
をもつ連続分布である」という情報だけでした。
これを確率密度関数
に対する次の三つの制約条件として書き直します。
- 確率の総和は 1 である(規格化条件)
- 平均が
- 分散が
を最大にしたいのですが、ただ最大を探すだけでは、制約(平均や分散)を守っていない分布が答えになってしまいます。そこで登場するのが ラグランジュ未定乗数法です。
ラグランジュ未定乗数法を直感的に説明すると、「エントロピーを大きくしたい」という目標に対して、「ただし平均と分散は必ずこの値にしなければならない」という約束を、罰則(ペナルティ)を課すように組み込むということです。
つまり、「制約を破ったら罰金を払わせるので、エントロピーを大きくしたくても勝手な分布にはできませんよ」という仕組みを数学的に作るわけです。その「罰金の重さ」を調整する係数が、未定乗数 です。
ラグランジュの未定乗数法で、制約を組み込んだ汎関数 は次のようになります:
この を最大化する
を探します。
まず、 に関する変分をとります。汎関数の変分をとり、「微小な変化を与えたときに一番良くなる条件」を調べます。
これを について解くと、
が得られます。右辺は指数関数であり、指数の部分には、二次式の形が現れています。
あとは、
- 規格化条件(総和 = 1)
- 平均 =
- 分散 =
の3つから、最終的な解として、正規分布
が得られます。
まとめ:正規分布は“最も無知”な分布だった
ここでの導出は、 「平均と分散という最小限の情報だけを持ち、あとは何も知らない」 という状況で最も“偏りのない”分布を選ぶと、必然的に正規分布になるということを示しています。
つまり正規分布は、 最も無知に忠実であること(最大エントロピー)が生み出す最も自然な形 だったのです。
5. おわりに ― 人の探究心が紡いだ「正規分布」という物語
正規分布は、ただ統計で都合がよいから現れたわけではありません。その背後には、数百年にわたり、自然を理解しようとした人々の試行錯誤と情熱が積み重なっています。
星空の誤差に法則性を見いだそうとしたガウス、 自然界の無数の状態を数え上げようとしたボルツマン、 確率と熱の本質を静かに見つめたギブス、 通信の混乱の中から「情報」という新しい概念を救い出したシャノン、 そして、不確実性そのものを“推論の原理”へと昇華させたジェインズ。
彼ら一人ひとりの探究心が、まるで遠く離れた道筋から一本の曲線──正規分布──へと向かって収束していきました。中心極限定理は、「多くの要素が重なりあうと、世界は滑らかな形に落ち着く」という、人間が自然を見つめてきた経験の集大成です。一方、最大エントロピー原理は、「限られた情報しかないとき、人はどのように合理的に判断すべきか」という深い哲学的問いに対する答えでした。その二つが同じ曲線に行きつくという事実には、数学の美しさ以上に、人間が世界を理解したいという欲求そのものが刻まれています。
正規分布は、自然がもたらした曲線であると同時に、人間の知を積み重ねていった結果として生まれた曲線でもある。
ガウスからシャノンへ、ボルツマンからジェインズへ――異なる時代、異なる分野の科学者たちが共に紡いだこの物語は、私たちにこう語りかけます。
「世界の奥深さを理解したい」という人の探究心こそが、科学を前に進めてきたのだ と。
正規分布の背後には、データや数式だけではない、「人間の科学」が息づいているのです。