「この薬、全体では有意差が出なかったんですが、高齢者のサブグループでは30%のリスク低下が見られました」——MRさんからこんな説明を受けたこと、ありませんか。
私はこの手の話を聞くたびに、まず1つだけ確認するようにしています。「それは事前に計画された解析ですか?」と。この一言が出るかどうかで、その情報の扱い方がまるで変わります。サブグループ解析は、使い方次第で臨床に役立つ道具にもなれば、偶然の数字に振り回される罠にもなります。
この記事では、サブグループ解析の多重検定問題を軸に、MRからの情報提供をどう評価するか、事前解析と事後解析の違い、そして現場で使えるチェックポイントを整理します。統計の話が苦手でも大丈夫です。判断の筋道さえつかめれば、明日からの情報評価が変わります。
目次
なぜ「サブグループで有意差あり」は疑ってかかるべきなのか

ここから話すのは、統計学でいう「多重検定の問題」です。ちょっと堅い言葉ですが、やっていることは意外とシンプルです。
サブグループ解析とは、臨床試験の参加者を年齢・性別・併存疾患などで小さなグループに分けて、それぞれで薬の効果を見る手法です。目的は本来、「全体の結果が、どんな患者層でも一貫しているか」を確認すること。ここ、誤解されやすいので先に言うと、「どの患者に一番効くかを探す」ための道具ではありません。
問題は、グループ分けを増やすほど、偶然だけで「有意差あり」が出る確率が跳ね上がることです。
| 検定の回数 | 偶然で有意差(p<0.05)が1つ以上出る確率 |
|---|---|
| 1回 | 5% |
| 5回 | 23% |
| 10回 | 40% |
| 20回 | 64% |
| 50回 | 92% |
20のサブグループを解析すれば、約3分の2の確率で偶然の有意差が少なくとも1つ出ます。MRが「このサブグループで有意差あり」と言ったとき、それが20回の検定のうちの1つなら、統計的には「出て当たり前」の範囲です。
でも、MRさんがわざわざ持ってくるデータなら、それなりに意味があるんじゃないですか?

オカメインコ

ポッポ先生
気持ちはわかります。ただ、製薬会社のプロモーションでは、事後解析のサブグループ結果を使うことは原則として制限されています。それでも”参考情報”として出てくることはあるので、受け取る側が見極める力を持つことが大切ですね。
いまの業務でMRと話す機会がある方、どうですか? 「このサブグループで効果あり」という話、意外と頻繁に耳にしていませんか。
「ふたご座にアスピリンは逆効果」──ISIS-2試験が教えてくれること

サブグループ解析の落とし穴を最も鮮烈に示したのが、1988年にLancetに掲載されたISIS-2試験です。急性心筋梗塞の患者17,187人を対象とした大規模試験で、アスピリンは全体として血管死亡を23%減少させるという明確な結果を出しました(p<0.000001)。
ところがこの論文には、意図的に「星座別」のサブグループ解析が掲載されています。患者を12の星座でグループ分けしたところ、ふたご座と天秤座ではアスピリン群の死亡率がプラセボ群より高いという結果が出ました。他の星座では明確な効果があるのに、です。
もちろんアスピリンの効果が星座で変わるはずがありません。
この星座解析が論文に載った背景には、ちょっとした経緯があります。当時Lancet編集部はサブグループ解析の結果を掲載したがっていました。研究者側は同意したうえで、1つ条件をつけました。「それなら星座別のサブグループ解析を最初に載せてほしい」と。読者に対して「サブグループ解析の結果をどこまで信じるべきか、自分で考えてください」というメッセージを込めたわけです。
私ならまず「全体の結果」を確認します。ISIS-2ではアスピリンの全体効果が圧倒的に明確でした。だからこそ、星座別の「効果なし」は偶然だと判断できます。逆に言うと、全体が非有意で、サブグループだけ有意——この組み合わせが一番注意が必要です。
星座の話はさすがに極端ですよね。実際の論文でそこまでひどい例ってあるんですか?

オカメインコ

ポッポ先生
実はあります。PRAISE試験という心不全の研究では、全体では有意差がなかったのに、非虚血性心不全のサブグループで死亡リスク46%減少という結果が出ました。そこで同じサブグループだけを対象にPRAISE-2試験を行ったところ、効果は確認できませんでした。事前に計画されたサブグループ解析でも、再現されなければ”偶然だった”という結論になり得るんです。
ここ、心当たりありませんか。「この薬、○○の患者には特に効く」という話を聞いて、なんとなく処方提案に組み込んでしまったこと。
「事前」か「事後」か──信頼性の分水嶺はここにある

サブグループ解析の信頼性を判断するうえで、最初に確認すべきは「事前に計画されたか、事後に行われたか」です。この違いは決定的です。
| 項目 | 事前設定(Pre-specified) | 事後解析(Post-hoc) |
|---|---|---|
| 仮説の設定 | 試験開始前にプロトコルに明記 | 結果を見てから設定 |
| 生物学的根拠 | 事前に説明されている | 後付けで理屈をつけられる |
| 信頼性 | 比較的高い(ただし絶対ではない) | 仮説生成にとどめるべき |
| 規制当局の扱い | 確認的解析として許容される場合あり | 探索的情報のみ |
事後解析は、言ってしまえば「答えを見てから問題を作る」ようなものです。データの中を探し回れば、何かしら有意差が出るグループは見つかります。これを「データドレッジング(data dredging)」や「宝探し」と呼ぶ研究者もいます。
⚠ 境界条件:事前設定=無条件に信頼できる、ではない
先ほどのPRAISE試験のサブグループ解析は事前に設定されていましたが、PRAISE-2で再現されませんでした。事前設定は「必要条件」であって「十分条件」ではないということです。
BMJ掲載のXin Sunらの系統的レビュー(2012年)では、サブグループ効果を主張した64試験のうち、交互作用検定を行っていたのはわずか9%でした。「強い主張」をしていた試験でも、信頼性の判定基準を5つ以上満たしていたのは15%にとどまりました。現場だとここで詰まりがちです。論文の主張の強さと、統計的な裏付けの強さは別物なのです。
正直、論文のプロトコルまで確認するのは現場では難しくないですか?

オカメインコ

ポッポ先生
おっしゃるとおりで、全部を自分で調べる必要はありません。MRに「これは事前に計画されたサブグループ解析ですか?」と聞くだけでも十分です。答えられないか、曖昧な回答なら、その情報は”参考レベル”として扱うのが安全ですね。
「時間がないから確認できない」と感じた方——それは正常な反応です。だからこそ、たった1つの質問に絞るのが現実的です。
信頼できるサブグループ解析を見分ける6つのチェックポイント

「全部ダメ」と切り捨てるのも正しくありません。サブグループ解析が臨床的に意味を持つ場面もあります。
🔬 サブグループ解析が正しく活かされた例:ゲフィチニブ
ゲフィチニブのISEL試験では全体で有意差がなかったものの、アジア人・非喫煙者のサブグループで生存期間の延長が見られました。その後、同じ集団を対象としたIPASS試験で効果が確認され、EGFR変異という生物学的メカニズムも解明されました。これはサブグループ解析が「仮説生成」から「仮説検証」へ正しく進んだ例です。
では、どんなサブグループ解析なら信頼度が高いのか。以下の6条件で判断できます。
| チェック項目 | 確認の仕方 |
|---|---|
| ① 事前に計画されている | プロトコルまたは臨床試験登録(ClinicalTrials.gov等)に記載があるか |
| ② サブグループの数が限られている | 5個以下が理想。多ければ多いほど偶然の有意差リスクが上がる |
| ③ 生物学的根拠がある | その分け方に科学的な理由(薬理学的・病態生理学的)があるか |
| ④ 交互作用検定が行われている | サブグループ間で効果に本当の差があるかを検証するp値・信頼区間が示されているか |
| ⑤ 全体の結果と一貫している | 全体が有効→サブグループも有効なら一貫性あり。全体NGでサブグループだけOKは要注意 |
| ⑥ 他の試験で再現されている | 独立した試験で同様の結果が確認されているか |
私ならまず④の交互作用検定から確認します。これがないサブグループ解析は、「この2グループの効果は本当に違うのか」を検証していないということです。たとえば「65歳以上で有効、65歳未満で無効」と言われても、交互作用検定なしでは「たまたまそう見えている」可能性を排除できません。
ただし、すべての条件を満たすサブグループ解析はそう多くありません。6条件中4つ以上満たしていれば「比較的信頼性が高い」と判断してよいですが、1〜2個しか満たしていなければ「仮説生成レベル」として扱うのがよいでしょう。
6つも覚えられないんですけど……

オカメインコ

ポッポ先生
全部覚えなくても大丈夫です。まずは「事前か事後か」「交互作用検定はあるか」の2つだけ。この2つを確認する習慣がつくだけで、情報の質の見極めは格段に上がりますよ。
MRからの情報提供、明日からこう受け止める

ここまでの話を、日常業務に落とし込みます。
MRの説明を聞いたときの3ステップ
ステップ1:まず全体の結果を確認する
「全体では有意差がなかったが、このサブグループでは……」という話が来たら、まず全体の結果を押さえます。全体が有意で、サブグループも同方向なら一貫性があります。全体が非有意でサブグループだけ有意——これが最も慎重に扱うべきパターンです。
ステップ2:たった1つの質問をする
「これは事前に計画されたサブグループ解析ですか?」
この質問だけで、事前か事後かが明確になります。事後なら「参考情報として受け取ります」と伝えれば十分です。しないほうが安全なのは、事後解析の結果だけで処方変更を検討することです。
ステップ3:交互作用検定の有無を確認する
余裕があれば「交互作用検定は行われていますか?」と聞いてみてください。これがなければ、サブグループ効果が本物かどうかの統計的な検証がされていないということです。
やってはいけないこと
いまの状況だと、こんな判断をしてしまいがちです。
- サブグループ解析の結果「だけ」を根拠に、処方提案を変える
- 全体で効果なしの薬を、サブグループ結果を理由に推奨する
- 未検証のサブグループ結果を患者説明に使う
でも、医師がMRの話を信じて「あの薬、高齢者に効くらしいね」と言ってきたら、どう返せばいいんですか?

オカメインコ

ポッポ先生
「サブグループ解析の結果なので、交互作用検定の有無を確認してみますね」と返すのが1つの方法です。調べた結果を医師にフィードバックすること自体が、薬剤師のエビデンス評価力を示す場面になりますね。
サブグループ解析が役立つ場面もある
すべてを否定する必要はありません。サブグループ解析には正しい使い道があります。
- 仮説生成:次の臨床試験の着想として使う
- 有害事象の検出:特定の患者群で副作用が多いかもしれない、というシグナルを拾う
- 適用範囲の確認:全体の結果が幅広い患者層に当てはまるかを見る
逆に言うと、サブグループ解析は「探索のきっかけ」であって、「結論」ではありません。ゲフィチニブのように、サブグループ解析→生物学的根拠の解明→新しい試験で検証、と進んで初めて臨床的に確立した知見になります。
まとめ:3つの確認で「偶然の数字」に振り回されない

サブグループ解析は、薬剤師が日常的に触れるエビデンスの中でも、最も誤解されやすい領域の1つです。多重検定の問題を知っているだけで、情報の受け止め方が変わります。
明日から実践できることを3つに絞ります。
- 「事前か事後か」を必ず確認する
事後解析は仮説生成にとどめ、確立した事実として扱わない。たった1つの質問——「これは事前に計画されたサブグループ解析ですか?」——が情報の質を見極めるカギです。 - 「いくつのサブグループを解析したか」を意識する
数が多いほど偶然の有意差が出る確率が上がります。20個のサブグループ解析なら、約3分の2の確率で偶然の有意差が1つ以上出ることを思い出してください。 - 「交互作用検定があるか」を確認する
サブグループ効果が本物かどうかを検証する統計的検定です。これがなければ、「偶然の可能性がある」と解釈するのが妥当です。
この3つを意識するだけで、MRからの情報提供を受け取る精度が上がります。完璧な論文評価ができなくても構いません。「ここ、ちょっと怪しいな」と立ち止まれること——それが臨床現場でのエビデンス評価力の出発点です。
確認先(一次情報)
- ISIS-2 Collaborative Group. Lancet 1988; 332:349-360.(星座別サブグループ解析の原著)
- Peto R. Current misconception 3. Br J Cancer 2011; 104:1057-8.(サブグループ解析の信頼性に関する解説)
- Sun X, et al. Is a subgroup effect believable? BMJ 2010; 340:c117.(サブグループ効果の信頼性評価基準)
- Sun X, et al. Credibility of claims of subgroup effects in RCTs. BMJ 2012; 344:e1553.(サブグループ主張の系統的レビュー)
- Packer M, et al. PRAISE-2 Study. JACC Heart Fail 2013; 1:308-14.(サブグループ結果が再現されなかった事例)
- Fingerhut A, et al. Interaction analysis of subgroup effects. Sci Rep 2024; 14:12619.(交互作用検定の方法論)
- EMA Guideline on the investigation of subgroups in confirmatory clinical trials(2019年発行、規制当局の立場)


