ケィオスの時系列解析メモランダム

時系列解析、生体情報解析などをやわらかく語ります

「仮説検証型研究」と「探索的データ分析」を混同してはいけない:「統計検定で有意差あり」がゴールじゃない

統計的に有意な結果が出た」——この決め台詞は多くの論文で使われ、一見すると強力な証拠を意味しているように聞こえます。しかし実際には、どのような手順で分析が行われたのかによって、同じ「有意差あり」という主張でも、信頼できる発見にもなれば、単なる偶然の産物にもなり得ます。この違いを生む背景にあるのが、仮説検証型研究(hypothesis-driven research)探索的データ分析(data-driven analysis) の区別です。

 この二つは、研究の目的も役割も本質的に異なります。ところが現実の研究では、この区別が十分に意識されないまま分析が行われ、結果として両者が驚くほど頻繁に混同されているのが実情です。

Figure: data-driven analysis と hypothesis-driven research

1. 二つの研究デザインの違い

 まず最初に重要なのは、仮説検証型研究(hypothesis-driven research)探索的データ分析(data-driven analysis) は、どちらも統計手法を用いるという点では共通しているものの、研究の目的と統計の使い方の位置づけが根本的に異なるということです。

 研究の現場では、この二つがしばしば混同されます。しかし、本来は役割がまったく異なります。簡単に言えば、

  • 仮説検証型研究は「事前に立てた仮説が正しいかどうかを検証する研究」
  • 探索的データ分析は「データの中から新しいパターンや仮説を見つける研究」

です。

 仮説検証型研究では、研究を始める前に「何を検証するのか」を明確に決めておくことが必要になります。例えば、主要な評価指標(アウトカム)をあらかじめ設定し、その仮説を検証するために必要なサンプルサイズを計算し、どの統計手法を使うかも事前に決めます。臨床研究のランダム化比較試験(RCT)などは、この典型例です。このような研究では、統計解析は仮説を判定するための手段として用いられます。

 一方、探索的データ分析では事情が異なります。研究の初期段階では、どの指標が重要なのか、どの変数が関係しているのかがまだ分かりません。そのため、多くの変数や指標を試しながら、データの中に潜んでいる構造や関係を見つけていきます。機械学習やバイオマーカー探索、EDA(Exploratory Data Analysis)などが代表例です。この場合、統計解析は新しい仮説を生み出すための道具として使われます。

 このように、両者はどちらも科学研究において重要な役割を持っています。探索的分析によって新しい仮説が生まれ、その仮説を仮説検証型研究で厳密に検証する、という流れは科学の発展において非常に自然なプロセスです。

 しかし問題になるのは、探索的分析で見つかった結果を、あたかも最初から仮説として設定していたかのように報告してしまう場合です。たとえば、多数の指標を試した後で、偶然有意になったものだけを取り出して「有意な結果が得られた」と報告すると、誤った結論を導く危険があります。したがって、研究では「今行っている分析が仮説検証なのか、それとも探索なのか」を明確に区別することが非常に重要になります。その違いを整理すると、次のようになります。

仮説検証型研究(Hypothesis-Driven Research)

特徴 内容
仮説の設定タイミング 研究前に明確な仮説を設定する
アウトカム 主要評価指標を事前に決める
サンプルサイズ 必要数を計算して設計する
統計解析 あらかじめ決めた手法のみで検証する
典型例 無作為化比較試験(RCT)、確認的試験
目的 仮説が正しいかどうかを判定する

探索的データ分析(Data-Driven Analysis)

特徴 内容
仮説の設定タイミング 分析しながら変えてよい
アウトカム 分析中に変更・追加が起きる
サンプルサイズ 試行錯誤が本質的に含まれる
統計解析 多数の手法・変数を試すことが目的
典型例 機械学習、EDA、バイオマーカー探索
目的 新たな仮説を生み出す

 両者はいずれも科学において不可欠です。しかし、これまで統計学の巨人たちの影響が強かったこともあり、多くの研究が古典的な仮説検証の形式に当てはめて論文を書くことを前提とした、いわばテンプレート型の研究になりがちです。その結果、論文において自分がどちらのアプローチを行っているのかを明確に区別しないまま分析が進められ、最終的には、あたかも最初から仮説検証型研究であったかのような形で結果が報告されてしまうケースが多く見られます。

2. 仮説検証型研究:「事前に決める」ことの意味

 臨床試験や実験研究では、確認的研究(confirmatory study) というスタイルが長年にわたって採用されてきました。その核心は、データを見るに分析計画をすべて決めておくことです。

標準的な手順

  1. 研究仮説の事前設定
    「治療薬Aはプラセボと比較して主要評価指標Xを改善する」のように、具体的かつ反証可能な仮説を立てる。

  2. 主要評価指標(プライマリアウトカム)の指定
    検証に使う指標を1つ(場合により少数)に絞り、事前登録や研究計画書に明記する。

  3. サンプルサイズ計算
    想定する効果量・有意水準・検出力をもとに、必要な被験者数を設計段階で算出する。

  4. 事前規定の統計解析計画(SAP)に従った検証
    データ収集後は、定めた計画のみで解析する。追加分析は明確に「副次的・探索的」と区別して報告する。

なぜ「事前に決める」のか?

 これは単なる手続き上のルールではありません。統計検定における「有意水準5%」という数値は、「この仮説ひとつだけを検定する」という前提のもとで成立しています。検定をする前から仮説と指標が固定されているからこそ、偽陽性(本当は差がないのに「差あり」と判定すること)のリスクが5%以下に抑えられるのです。

3. 「後出し分析」が引き起こす多重検定問題

  次の思考実験を考えてみましょう。あるデータセットに対して、研究者が100種類の指標を作り、それぞれに対して独立に統計検定を行ったとします。有意水準は標準的な5%(\alpha  = 0.05)です。

100回の検定 × 0.05 = 期待される偽陽性の数:約5個

— 本当に差がなくても、純粋な偶然だけで「有意」な結果が約5個生まれる —

もし研究者が100個の指標を試した後で、有意だった3〜5個だけを選んで論文に報告したとしましょう。読者から見れば、それらの指標は「統計的に有意な差が検出された指標」として読めてしまいます。しかし実際には、その結果は偶然の産物である可能性が非常に高いのです。

コインを100枚投げたら何が起きるか

 直感的に理解するためのたとえ話です。公平なコイン(表裏の確率が完全に1/2)を100枚用意して、それぞれを20回ずつ投げたとします。20回中16回以上表が出れば「偏りあり(p < 0.05)」と判定するとすると、100枚中おおよそ5枚は、まったく偏っていなくてもその判定を受けます。その5枚を取り上げて「この5枚のコインには偏りがあった」と報告するのが、p-hacking の実態です。コインは何も変わっていない。変わったのは、「有意だったものだけを見せた」という報告の仕方です。

p-hackingの問題には複数の異なる名前がある

  • p-hacking — 有意なp値が出るまで分析を繰り返すこと
  • multiple testing problem(多重検定問題) — 複数の検定を行うほど偽陽性の確率が増加する問題
  • selective reporting(選択的報告) — 有意だったものだけを報告し、有意でなかったものを隠すこと
  • HARKing — Hypothesizing After Results are Known:結果を見てから仮説を後付けすること

 これらはすべて、本質的に同じ問題の異なる側面を指しています。近年の科学研究における「再現性の危機(replication crisis)」の主要な原因のひとつとして広く認識されています。

4. 探索的分析は科学の出発点

 ここで重要な誤解を防いでおく必要があります。探索的なデータ分析が科学的に不正なわけではまったくありません。新しい指標を作ること、多数の変数を試すこと、データからパターンを掘り起こすこと——これらは新しい仮説を生み出す上で不可欠な営みです。特に次のような場面では、data-driven な分析は非常に強力です。

  • まだ誰も注目していない新しいバイオマーカーの発見
  • 大規模コホートデータからのリスク因子の同定
  • 機械学習による疾患予測モデルの構築
  • 探索的データ分析(Exploratory Data Analysis:EDA)によるデータの理解と品質確認

 ポイントは、 探索的分析は「仮説を検証する方法」ではなく、「仮説を生み出す方法」である、ということです。問題が生じるのは、探索的分析で見つかった結果を、あたかも最初から仮説として設定していたかのように報告したときです。言い換えれば、「発見の段階」と「検証の段階」をごっちゃにしたときです。

5. 健全な研究の流れ:発見と検証を分ける

 科学研究では、発見(exploration)と検証(confirmation)を明確に分けることがとても重要です。この二つは対立するものではなく、本来は連続した研究プロセスの異なる段階です。健全な研究は、次のような流れで進みます。

探索(Explore)

 まず最初に行うのが、探索です。ここではデータを広く眺めながら、新しいパターンや興味深い関係を探します。どの変数が重要なのか分からない段階なので、多くの指標や変数を試しながら、データの中に潜んでいる構造を見つけていきます。機械学習やEDA(Exploratory Data Analysis)、バイオマーカー探索などは、この段階に対応します。これは典型的なdata-drivenのアプローチです。

仮説設定(Hypothesize)

 次に行うのが、仮説設定です。探索の結果から、「この指標は結果に関係しているのではないか」といった具体的な仮説を立てます。例えば、「指標Xが結果Yに関連するのではないか」という形です。この段階では、どの指標を評価するのか、どの統計手法を使うのかなどを事前に明確に決めておくことが重要になります。近年では、研究の透明性を高めるために事前登録(preregistration)を行うことも一般的になっています。

検証(Confirm)

 そして最後が、検証です。ここでは、事前に決めた方法だけを使って、仮説が正しいかどうかを厳密に検証します。この段階では、探索のように分析方法を途中で変えることは許されません。統計はここで初めて、仮説を判定するための道具として使われます。これは典型的なhypothesis-drivenの研究です。

 ここで非常に重要なポイントがあります。それは、検証には「新しいデータ」が必要だということです。探索に使ったデータと同じデータで仮説を検証してしまうと、統計的な意味はほとんど失われてしまいます。なぜなら、探索の段階ですでにデータを何度も見ているため、偶然のパターンを見つけてしまう可能性が高いからです。これは多重検定(multiple testing)の問題として知られています。

 したがって、本当に信頼できる結論を得るためには、

  • 独立したデータセットで検証する
  • あるいは 新しい研究で再現する

ことが不可欠になります。

 科学の信頼性は、「見つけたこと」ではなく、「再現できること」によって支えられているのです。

プレレジストレーション(事前登録)の仕組み

 この「事前に決める」という精神を制度化したものが プレレジストレーション(pre-registration) です。研究を実施する前に、仮説・アウトカム・統計解析計画を公開リポジトリに登録しておくことで、「後出し」を構造的に防ぎます。特に臨床試験では国際的に義務化が進んでいます。

6. 「統計的有意」という言葉のワナ

 もう一点、根本的な注意点があります。「統計的に有意 p \lt 0.05」という結果は、それだけでは何も証明しません。

p 値が意味するのは、「もし帰無仮説が正しいなら、これほど極端なデータが偶然得られる確率」です。これは次のことを意味しません

  • 効果が大きいこと(を意味しない
  • 結果が再現されること(を意味しない
  • 仮説が正しいこと(を意味しない
  • 臨床的・実務的に意味があること(を意味しない

 p 値の意味は、研究デザインの文脈に完全に依存します。事前に決めた1つの仮説を、適切にデザインされた試験で検定したp値と、100個の指標を試した後に選び出した指標のp値では、表面上は同じ「p = 0.03」であっても、まったく異なる信頼性を持ちます。

7. まとめ:差ではなく「意味」を見つける

 ここまで見てきたように、科学研究には 仮説検証型(hypothesis-driven)データ駆動型(data-driven) という二つのアプローチがあります。重要なのは、どちらが優れているかではなく、それぞれの役割を理解し、混同しないことです。

仮説検証型研究は、あらかじめ立てた仮説を厳密に判定するための枠組みです。そのためには、事前の仮説設定、固定されたアウトカム、サンプルサイズ設計など、厳密な研究デザインが必要になります。この文脈の中で初めて、統計検定や p 値は明確な意味を持ちます。

一方で、現実の多くの科学的発見は、最初から仮説が明確だったわけではありません。未知のデータを観察し、パターンを見つけ、そこから新しい指標や概念が生まれます。この段階で重要になるのが データ駆動型の探索的分析です。探索によって初めて仮説が生まれ、その仮説が次の研究で検証されていきます。

私自身の研究は、基本的には data-driven なアプローチに立っています。生体信号や行動データのような複雑なデータでは、最初から「どの指標が重要か」を完全に知ることはできません。そのため、多くの指標や解析方法を試しながら、データの中に潜んでいる構造やパターンを探ることになります。

だからこそ、私が特に重視しているのは、単に「差を見つけること」ではなく、「意味を見つけること」です。

統計的に有意な差は、偶然でも現れます。しかし、その差が

  • 生理学的にどのような意味を持つのか
  • どのようなメカニズムと関係しているのか
  • 別のデータでも再現されるのか
  • 現実の問題理解にどのように貢献するのか

といった問いに答えられなければ、その結果は科学的な知見として十分とは言えません。

 データ駆動型研究の本質は、有意差を量産することではなく、データの中にある構造を理解し、新しい意味を見いだすことにあるのです。

※ もし記事の中で「ここ違うよ」という点や気になるところがあれば、気軽に指摘していただけると助かります。質問や「このテーマも取り上げてほしい」といったリクエストも大歓迎です。必ず対応するとは約束できませんが、できるだけ今後の記事で扱いたいと思います。それと、下のはてなブログランキングはあまり信用できる指標ではなさそうですが (私のブログを読んでいる人は、実際とても少ないです)、押してもらえるとシンプルに励みになります。気が向いたときにポチッとしていただけたら嬉しいです。