2026.4.16

【医療統計Q&A 教えて新谷先生】Vol.7：P値の多重性があるとき、調整は必須？

#医療統計

大阪公立大学大学院医学研究科

新谷歩

はじめに

「医療統計、これってどうなってるの？」

あなたはそんな疑問に悩まされたことはありませんか？

「医療統計Q&A 教えて新谷先生」では、医療統計の第一人者である新谷先生が、あなたが抱える医療統計の疑問を、驚くほどやさしく解説していきます。

医療統計の「なるほど！」を楽しみ、苦手だった医療統計をあなただけの武器にかえていきましょう。

このシリーズ記事を読み進めていけば、「医療統計、任せてよ！」という自信がムクムクと育っていくはずです。

今回の質問

P値の多重性があるとき、調整は必須ですか？

新谷先生の回答

P値の多重性への対処法については、いろいろな考え方があります。

例えば、個々の検定について記述的にP値を扱い、「この場合はP値が0.049」「この場合はP値が0.056」と、それらをデータとして俯瞰的に見るのであれば、多重性の調整をする必要はありません。何がいけないのかと言うと、「少なくとも一つ有意差が出た」からと言って、判断を変えるような場合がよくないと言われています。

ここで、著名な統計家であるRosnerとSennによる解説をご紹介します。

Rosnerは「多重比較の調整については、統計家の間でも非常に議論が多い（highly controversial）」と述べています。

比較する群が数多くあり、群間の比較の全てが事前に計画されていない場合は、多重比較の手法を用いるべきです。例えば、遺伝子が１億個あるとして、個々のSNP（一塩基多型）でP値を計算して「5%で有意差が出た」などと報告されたとすれば、流石に「それはやめて欲しい」と思いますよね。

一方で、比較する群が少数で最初から絞り込まれており、事前に計画された上で「どうしても実施しなければいけない解析である」とプロトコルに明記されている場合には、全体としての群間差の検定（global test、分散分析；ANOVA）で一気に見るという方法があります。

このように全体として検定を行い、「少なくとも一つの群で差がある」という結果であれば、P値の調整（例：Bonferroni補正）をせず、通常のt検定（LSD法；最小有意差法）を用いるのが好ましいとされています。

続いて、Sennも同様に、「全ての検定結果（有意・非有意の両方）が報告されるのであれば、問題は生じない」と述べています。ただし、この立場においても、本当は手当たり次第に100個ぐらい解析してるのに、論文には有意差が出たものだけを選択的に報告すること（チェリーピッキング）は好ましくないとしています。

「全ての検定が、事前に試験プロトコルに記された優先順位の順に実施され、その優先順位の順に報告される」という前提であれば、調整をしなくてよいという意見なのです。

また、Sennは次のようにも述べています。「一般に、少なくとも一つの第Ⅰ種の誤り（偽陽性）を犯す確率は、アウトカム間の相関に依存する。」
「Bonferroni補正はかなり悲観的な方法であり、臨床アウトカム同士が正の相関を持つことが多い状況では、保守的すぎる可能性がある」

この考え方はとても大切なポイントです。

例えば、陸上競技の高跳びの選手を例にして考えてみましょう。

高跳びで180センチをクリアする確率が5%だったとします。２回トライして、少なくとも１回クリアすれば、この180センチは飛べたことにするとします。

この１回目のジャンプと２回目のジャンプが「完全に独立」の場合はこのような計算式になります。

=prob（１回目にクリア + １回目がダメで２回目にクリア）
=0.05*1 + 0.95*0.05
=0.0975 = 9.75%

少なくとも１回飛べる確率は9.75%になるんですね。

ところが、この選手はメンタルが弱く、１回目がダメだった場合には２回目をクリアする確率が1%に下がるとしましょう。

=prob（１回目にクリア + １回目がダメで２回目にクリア）
=0.05*1 + 0.95*0.01
=0.0595 = 5.95%

この場合は、２回のうち少なくとも１回飛べる確率は、5.95%にしか上がりません。

そのため、検定間に相関がある場合に、多重性の調整を実施しないということも、一つのやり方ではないかと思います。

前回の解説で、「多重性の問題が生じるシナリオ」について解説しましたが、全てにおいて調整が必要なわけではありません。

比較群が３つ以上存在する場合では、ANOVAの解析を実施して（global test）、それで有意差が出れば個々の比較においてP値の調整をしなくてもよいです。
アウトカムが２つ以上存在する場合では、アウトカム同士が相関しているとき、多重性の調整を実施しないということも一つのやり方です。
中間解析など研究終了までに解析が繰り返し行われている場合では、中間解析用の多重性の調整法があります。（治験などで使われています。）
回帰分析で説明変数が２つ以上存在する場合、実は、回帰分析全体で「すべての回帰係数が0である」というANOVAのような検定があります。そこで有意差が出ていれば、個々の説明変数は調整しなくてよいという考え方があります。

このように、様々なシナリオで多重性の問題が起こりますが、実際に調整しなければいけないものは、やはり「手当たり次第に、何も考えずに実施されている解析」です。

多重性の問題を俯瞰的に見て「何が悪いのか」というと、「データ解析をする前に、よく考えてますか？」という点が重要なんです。「何を主要評価項目と置きますか？」「何が副次評価項目ですか？」という点をクリニカルクエスチョンと照らし合わせて、優先順位を決めておくことが大切です。

そして論文では、「a priori determined」と記述するのが適切です。そうでないもの解析は「Post-hoc」です。Post-hoc解析というのは「事後に仮説を決めた」「やりたい解析はデータを見て決めた」ということですね。そして、その場合においては多重性の調整を実施すべきです。

または、多重性の調整を実施しない場合に、「探索的な解析なので、統計的有意差を評価せず、信頼区間だけを記載します」といった説明の仕方もあります。「多重性の調整をしない」というのも一つのやり方なのです。

また、このように多重性の調整を実施していない理由を明記することで、レビュアーに「この著者は、多重性の問題をよく分かっているな」と伝わります。

このように、賛否両論はありますが、多重性の調整は「絶対に実施しなければいけない」ものではないのです。大切なことは、「a priori 」なのか、「Post-hoc」なのかという点に尽きると思います。

※この記事はウェビナー「新谷先生のゼロから極める医療統計」のQ&Aを基に作成されています。

【数式ほぼゼロ、一生モノの医療統計を！】

新谷先生のゼロから極める医療統計研修2026　基礎編

2025年に開催し、累計受講者数1,760名、平均満足度96.4%と大きな反響をいただいた【新谷先生のゼロから極める医療統計シリーズ】が、超実践型にブラッシュアップされ、2026年も開催いたします。

本研修は「ゼロから医療統計を学び、研究で実践できるようになる」ことを目指して設計されています。

新谷先生が理論だけでなく実践できる力を身につけるために考えた、アクティブラーニングを取り入れており、特に「これまで統計を学んだことがない、学んだけど諦めた人」が、医学研究に必要な統計の基礎を体系的に学べる構成にしました。

12テーマのそれぞれが座学・コーチングの２講義に分かれ、座学では理論やケーススタディ、EZRハンズオンを通して実践的な知識に触れ、コーチングでは講義中の「もっと知りたい」をさらに深掘りすることで、知識の定着を目指します。

全体と通して数式はほぼ使わずに、実例をふんだんに盛り込み、とにかくわかりやすく、感覚的に理解できることを重視しています。

今まで医療統計で挫折をしてきたけど、もう一度医療統計にチャレンジし、今度こそは武器にしたいという方はぜひ詳細をご覧ください。

詳細はこちら

【医療統計Q&A】教えて新谷先生

Vol.1：P値の解釈に困っています。例えばP=0.06のとき、どうすればよいですか？
Vol.2：有意差があるので、「この薬は効く」といっていいですか？
Vol.3：P値ではなく95%信頼区間をみるべき？
Vol.4：95%信頼区間ってどう理解すれば？
Vol.5：臨床的に意味のある差はどう判断する？
Vol.6：P値の多重性は、どのようなときに起こるのですか？
Vol.7：P値の多重性があるとき、調整は必須？（本記事）
Vol.8：論文にいくつもP値を載せてよいですか？
Vol.9：何種類も解析を行い、有意差が出たものだけを報告してよい？