ケィオスの時系列解析メモランダム

時系列解析、生体情報解析などをやわらかく語ります

p値って何なの?:もう「統計的に有意」とは言わないで

 統計を使った結果を論文にまとめるとき、p値 (p-value)をとにかく重視する、p値信仰とも呼べる重苦しい呪縛を感じることがあります。研究論文で「p < 0.05 で有意でした」なんてフレーズを見るのは日常茶飯事です。しかし、「p値って何?」と聞かれて、みんなが納得できるように答えられる人は意外と少ないかもしれません。

 そこで今回は、p値の意味と、間違った解釈をしないためのポイント、さらには、p値の扱いについての最新のトレンドについて、解説していきます。とはいえ私は、数理統計学が専門ではありません。ただの統計ユーザに過ぎませんので、以下の説明では間違っている部分があるかもしれません。その点は注意して読んでください。

p値は確率的にばらつくもの

1. p値とは何か?

 まず、「p値は何を表しているのか?」を知ることが大切です。p値とは、帰無仮説(きむかせつ)が正しいと仮定した場合に、現在得られているデータから計算された統計値がどの程度珍しいかの目安 (その結果以上に極端な結果が出る確率)」です。

 ここで、「帰無仮説って何?」という方のために、簡単に説明すると:

  • 帰無仮説(H₀): 「この薬に効果はない」「この教育法は普通の授業と変わらない」といった、「何も起こっていない」ことを前提とした仮説。

  • 対立仮説(H₁): 「この薬は効く!」「新しい教育法は成績を向上させる!」といった、何かしらの効果があるという仮説。

 つまり、p値が小さい(例えば p < 0.05)の場合、「こんなデータが偶然出る確率はめちゃくちゃ低い!これは偶然じゃないかも?」となり、帰無仮説を棄却する(捨てる)方向に進みます。

 しかし、ここで大事なのは、p値は「示したい仮説 (対立仮説)が正しい確率」ではないということです。帰無仮説のp値が0.03だったとしても、すぐに対立仮説に飛びつき、「この薬が効く。対立仮説が正しい確率は97%!」なんて解釈をしてはいけません。帰無仮説が正しくても (薬に全く効果がなくても)、p値が0.03になることは、100回に3回くらい (30回に1回くらい)はあるのです。よく使われる有意水準0.05では、まったく差がない (帰無仮説か完全に正しい)場合でも、20回に1回くらいは、p値は0.05以下になります。

 このように説明すると、でも、それなりに確率が小さいから悪くないんじゃない?と思われるかもしれません。しかし、絶対に覚えておいてほしいことは、帰無仮説が正しい場合、p値は0から1までの値をとる一様分布に従うということです。「一様分布」とは、どの数値も同じ確率で現れる分布のことです。

 もし帰無仮説が正しい場合でも、観測されるデータは確率的にばらつきます。そのため、p値も0から1のどこかにランダムに分布します。例えば、ある実験ではp値が0.2になることもあれば、別の実験では0.7になることもあります。そして、0.01になることもあるのです。これらのp値は特定の値に偏ることなく、均等な確率で出現します。

 p値の分布については、以下の記事も参考にしてください。

【Rでt検定】何度でも言う、p値にこだわりすぎるな?! でも、例数を増やす努力はしろ!! - ケィオスの時系列解析メモランダム

多重比較の問題を考える前に,p値の分布を見ておく - ケィオスの時系列解析メモランダム

2. p値に関する誤解

 p値は長年にわたり、科学界で誤解され、妄想され続けてきた数値です。例えば、こんな誤解がおこります。

誤解1:「p < 0.05 なら結果は確実!」

 これは、多くの研究者が陥るトラップです。p < 0.05 という結果は「帰無仮説のもとで偶然こうなる確率が5%未満である」ことを示しているだけで、「この薬が効く確率が95%」ではありません。

 珍しいことが起きる確率が低い=対立仮説が正しい、というわけではありません。

誤解2:「p > 0.05 だから効果なし!」

 逆に、p値が0.06だった場合、「有意じゃないから、この薬は効かない!」と結論づけるのも間違いです。p値が有意でなかったとしても、それは「効果がゼロである」と証明したわけではありません。ただ単に、「今回のデータでは決定的な証拠が得られなかった」だけなのです。

 何度も何度も、いろんな研究グループが繰り返し検証を行い、誰がやっても同じような傾向が見られることで、証拠の確実性が高まっていくのです。一回やって、p値がどうこうではないのです。

3. 米国統計学会(ASA)の声明

 米国統計学会(American Statistical Association: ASA)は、こうした誤解が科学界に氾濫していることに危機感をもち、2016年に「p値の正しい使い方についての声明」を発表しました。その中で、次のような重要なポイントが述べられています。

p値の解釈に関するASAの6つの原則

  1. p値は、データと仮説の整合性を示す指標に過ぎない。
  2. p値だけを見て科学的結論を出してはいけない。
  3. p値は、効果の大きさを示すものではない。
  4. p値だけで「統計的に有意」と言ってはいけない
  5. p値と一緒に効果量(エフェクトサイズ)や信頼区間を示すべき。
  6. 他の統計的手法(ベイズ統計など)と組み合わせるべき。

 要するに、「p値だけで結論を出さずに、データの意味をよく考えよう!」ということです。

4. 最新のトレンド:p値からの卒業

 近年、p値の扱い方に関する新たな潮流が生まれています。

「統計的に有意」という言葉をやめる動き

 2019年3月にNature誌に掲載された記事では、800人以上の科学者が「もう“統計的に有意”という表現はやめよう」と提言しました。p < 0.05 という閾値(しきいち)を基準にするのではなく、データ全体を見て科学的な意味を考えるべきという考え方が広まっています。

効果量と信頼区間を重視

 単に「有意だった/有意でなかった」ではなく、「どれくらいの効果があったのか?」を示すのが大切だとされています。そのため、効果量(effect size)や信頼区間(confidence interval)を重視する動きが広がっています。

5. 実際のデータ分析でのポイント

 最後に、p値を正しく活用するためのポイントをまとめます。

  • p値が小さくても、効果の大きさを確認しよう!
    「p < 0.05 だからOK!」ではなく、効果量と信頼区間を確認して、「実際にどれくらいの変化があるのか?」を考えましょう。

  • p値が大きくても、すぐに「効果なし」と決めつけない!
    p値が大きい場合、「今回のデータでは決定的な証拠が得られなかった」と慎重に解釈するのが大切です。

  • p値だけでなく、データの全体像を見る!
    95%信頼区間ベイズ統計など、他の分析方法と組み合わせて判断することが推奨されています。

まとめ

 p値は便利なツールですが、使い方を間違えると「有意だから正しい」「有意じゃないからダメ」といった極端な判断をしてしまいます。統計を使う際は、p値を鵜呑みにせず、データの意味をよく考えることが何よりも大切です。

 科学的な結論はp値だけで決まるものではありません。大切なのは、データ全体を見て、しっかりとストーリーを組み立てること。統計は魔法ではなく、思考の道具なのです!