「p < 0.05だから効く薬なんですよね?」——この理解のままだと、ちょっと危ういかもしれません。
統計的に有意であることと、臨床的に意味がある効果があることは、実は別の話です。たとえば、数万人規模の大きな試験では、ほんのわずかな差でも統計的有意になることがあります。でもその差が患者さんにとって実感できるものかどうかは、また別の問いです。
この記事では、RCTの結果に出てくる数字——相対リスク(RR)、絶対リスク差(ARR)、治療必要数(NNT)、信頼区間の意味を、できるだけ平易に解説します。統計が苦手でも大丈夫です。数式は使いません。「この薬、どのくらい効くんですか?」と聞かれたとき、根拠をもって答えられるようになることがゴールです。
目次
「統計的に有意」と「臨床的に意味がある」はなぜ違うのか
まず、この区別をはっきりさせておきます。
統計的有意差(p < 0.05)は、「この差が偶然によるものである確率が5%未満」という意味です。つまり、差が”ある”か”ない”かの判定です。差の”大きさ”については何も教えてくれません。
ここ、心当たりありませんか。論文の結果で「有意差あり」と書いてあると、それだけで「効果がある薬だ」と受け取ってしまうこと。
でも、有意差があるってことは効くってことですよね?

オカメインコさん

ポッポ先生
“差がある”とは言えます。でも”その差が患者にとって意味のある大きさか”は別の話です。たとえば死亡率が0.1%下がることが統計的に有意でも、NNTで見ると1,000人に1人しか恩恵を受けない計算になります。ここは押さえたいです
臨床的に意味があるかどうかを判断するには、効果の「大きさ」を見る必要があります。そこで登場するのが、相対リスク、絶対リスク差、そしてNNTです。
相対リスクと絶対リスク ― 見え方で印象が変わる
治療効果の大きさを表す指標には、大きく分けて「相対的な指標」と「絶対的な指標」があります。この2つを混同すると、効果を実際より大きく(あるいは小さく)見積もってしまいます。
相対リスク(RR)と相対リスク減少(RRR)
相対リスク(Relative Risk)は、治療群のイベント発生率を対照群のイベント発生率で割ったものです。
- 対照群のイベント発生率:10%
- 治療群のイベント発生率:8%
- RR = 8% / 10% = 0.80
RRが1.0なら「差なし」、1.0未満なら「治療群のほうがイベントが少ない」ことを意味します。
相対リスク減少(RRR)は「1 – RR」で、この例では20%の相対的なリスク減少です。
「20%のリスク減少」と聞くと、かなり効きそうに感じませんか? でもこの数字だけでは、実際にどのくらいの患者さんが恩恵を受けるのかはわかりません。
絶対リスク差(ARR)
絶対リスク差(Absolute Risk Reduction)は、対照群と治療群のイベント発生率の単純な引き算です。
ARR = 10% – 8% = 2%
同じ研究結果でも、「リスクが20%減る」(RRR)と「リスクが2%減る」(ARR)では、受ける印象がまったく違います。どうですか? どちらも正しいのですが、臨床的な意味を考えるにはARRのほうが直感的です。
それってつまり、製薬会社が相対リスクを強調するのは、効果が大きく見えるからですか?

オカメインコさん

ポッポ先生
意図的かどうかはともかく、相対リスクのほうがインパクトのある数字になりやすいのは事実です。だからこそ、自分で絶対リスク差を確認する習慣が大事ですね
NNT ― 「何人に使えば1人救えるか」を示す数字
NNT(Number Needed to Treat:治療必要数)は、私が最も実用的だと感じている指標です。
計算はシンプルで、ARRの逆数です。
NNT = 1 / ARR = 1 / 0.02 = 50
つまり、「50人にこの治療を行うと、1人がイベントを回避できる」という意味です。
NNTがなぜ実用的なのか
NNTの良さは、患者さんや他の医療者に伝えやすい点にあります。
「この薬で死亡リスクが20%減ります」と言うのと、「この薬を50人に使うと、そのうち1人が助かります」と言うのでは、伝わる情報の質が違います。服薬指導で患者さんから「この薬、本当に必要なんですか?」と聞かれたとき、NNTの感覚を持っていると自信をもって答えやすくなります。
NNTの目安として、以下のような感覚を持っておくと便利です。
| NNT | 効果の大きさのイメージ |
|---|---|
| 2〜5 | 非常に大きな効果 |
| 5〜20 | 中程度の効果 |
| 20〜50 | 小さいが臨床的に意味がありうる |
| 50〜100以上 | 効果は小さい(ベネフィットとリスクの天秤が重要) |
ただし、NNTだけで判断しないほうが安全です。NNTは「どのくらいの期間で」「どんなアウトカムに対して」の情報が伴って初めて意味を持ちます。
正直、NNTが小さいほどいい薬ってことですよね? それだけ覚えればいいのでは?

オカメインコさん

ポッポ先生
方向性としてはそうですが、NNTだけでは不十分です。NNH(害の必要数)と比較して、ベネフィットがリスクを上回るかを考える必要がありますね
NNH(Number Needed to Harm)は、副作用や有害事象について同じ考え方で計算したものです。NNTが20でNNHが10なら、害のほうが先に来る計算になります。この比較が、薬の価値を判断するうえで欠かせません。
信頼区間の読み方 ― 「幅」に注目する
論文の結果にはほぼ必ず、95%信頼区間(95% CI)が付いています。これは「真の値がこの範囲に含まれる可能性が95%」……と説明されることが多いですが、厳密にはもう少し複雑です。
ここでは実用的な読み方に絞ります。
信頼区間で見るべき3つのポイント
- 区間が1(または0)をまたいでいるか
相対リスクの場合:CIが1.0をまたぐなら統計的に有意でない
絶対リスク差の場合:CIが0をまたぐなら統計的に有意でない - 区間の幅
狭い → 推定精度が高い(サンプルサイズが大きい傾向)
広い → 推定精度が低い(効果の真の値がどこにあるか不確実) - 区間の下限(または上限)が臨床的に意味のある値を含むか
たとえばRR = 0.70(95% CI: 0.50-0.95)なら、最も控えめに見ても5%のリスク減少はある
でも…信頼区間って結局、p値と同じことを言ってるんじゃないですか?

オカメインコさん

ポッポ先生
“有意かどうか”については同じ判断になります。でもp値は差の大きさを教えてくれません。信頼区間は”効果がどのくらいの範囲にありそうか”を示してくれるので、臨床的な判断材料としてはるかに有用です
結果を読むときの落とし穴 ― 知っておきたい4つの注意点
ここまでの基本を押さえたうえで、もう一歩踏み込んだ視点を紹介します。論文の数字を読むとき、気をつけたいポイントが4つあります。
1. 複合エンドポイントの落とし穴
「心血管イベント」をエンドポイントにした試験を見たことはありませんか? 心血管死亡・心筋梗塞・脳卒中・不安定狭心症による入院……複数のイベントを一つにまとめたものが複合エンドポイント(composite endpoint)です。
これ、一見すると合理的に見えます。でも落とし穴があるんです。
- まとめられている各項目の「客観性」が揃っていない。「死亡」はきわめて客観的ですが、「入院」は判定に主観が入りやすい
- 「重要度」が揃っていない。「心血管死亡」と「入院」では、患者さんにとっての深刻さがまったく違います
- 複合エンドポイント全体で有意差が出ていると、個々のイベントに差がないことが見逃されやすくなる
じゃあ、複合エンドポイントの結果は信じちゃダメってことですか?

オカメインコさん

ポッポ先生
信じちゃダメではなく、内訳を見ることが大切です。各構成要素の結果が論文に記載されているはずなので、どのイベントが結果を動かしているかを確認してください
2. 中間解析と早期終了 ― 「劇的な効果」は疑ってかかる
臨床試験では、試験の途中で中間解析が行われることがあります。「明らかに一方の群が優れている」場合、倫理的な理由で試験を早期に終了するためです。
一見もっともな話ですが、ここにも注意が必要です。早期終了された試験は、治療効果を過大評価しやすいことが繰り返し報告されています。
なぜか。試験の初期段階では、イベント数が少なく、結果のばらつきが大きい状態です。そのタイミングでたまたま治療群に良い結果が出ると、「劇的に効いている」ように見えることがあります。これを“Random high”(偶然の上振れ)と呼びます。特にイベント数が200以下の試験で起きやすいとされています。
3. サブグループ解析は「探索的」にとどまる
「65歳以上ではさらに効果が大きかった」「糖尿病のあるサブグループでは有意差が消えた」。こうしたサブグループ解析の結果を目にすることがあります。
でもここ、迷いやすいところです。サブグループ解析の結果は、あくまで「探索的」なものです。仮説を生み出すことはできますが、それ自体が確定的な結論にはなりません。
なぜかというと、サブグループに分けるたびに、各群のサンプルサイズが小さくなり、偶然の差を拾いやすくなるからです。さらに、多くのサブグループを検定していれば、どれか一つくらいは偶然に有意になる可能性があります(多重検定の問題)。
4. 非劣性試験のロジック ― 「劣っていない」は「同等」ではない
最近よく目にするのが非劣性試験です。「新薬Aは既存薬Bに対して非劣性が示された」。この結論の意味、正確に理解できていますか?
非劣性試験は、「新薬が既存薬より“ある程度以上には”劣っていないこと」を示すデザインです。ポイントは、あらかじめ設定された「非劣性マージン(許容できる差の上限)」です。
ここで気をつけたいのは、非劣性マージンが広すぎないかどうか。マージンを広く設定するほど、非劣性は示されやすくなります。「劣っていない」と結論づけられていても、マージンの設定が甘ければ、実際には臨床的に意味のある差があるかもしれません。
非劣性が示されたら、その新薬は既存薬と同等ってことですよね?

オカメインコさん

ポッポ先生
“同等”とは限りません。非劣性試験は”マージン以上に劣ってはいない”ことを示しただけです。“劣っていない”と”同等”は違う概念なので、ここは区別してくださいね
実践で使うために ― 数字を読む3ステップ
ここまでの内容を、実際の論文を読むときの手順に落とし込みます。私ならまず、以下の3ステップで結果を読みます。
ステップ1:両群のイベント発生率を確認する
- 対照群と治療群それぞれの発生率(%)を見る
- ここがすべての計算の出発点
- 複合エンドポイントの場合は、必ず内訳も確認する
ステップ2:絶対リスク差(ARR)とNNTを確認(または計算)する
- ARR = 対照群の発生率 – 治療群の発生率
- NNT = 1 / ARR
- 論文に記載がなくても、両群の発生率がわかれば自分で計算できる
ステップ3:信頼区間を確認する
- 区間の幅と位置を見て、効果の確実性を判断する
- 相対リスクのCIが1をまたぐかどうか
- 早期終了された試験では、効果が過大評価されている可能性も考慮する
この3ステップは、前回(第4回)で解説した「RCTの妥当性チェック」を終えた後に行います。つまり、「この研究は信頼できそうだ」と判断できた研究について、「ではどのくらいの効果があるのか」を読み解く段階です。
ここ、迷いやすいところです。妥当性に問題がある研究の数字をいくら丁寧に読んでも、意味がありません。順番が大事です。
まとめ
「統計的に有意」と「臨床的に意味がある」は別物です。治療効果を正しく解釈するために、以下のポイントを押さえてください。
- 相対リスク(RR)は効果が大きく見えやすい。必ず絶対リスク差(ARR)と合わせて確認する
- NNTは「何人に治療すれば1人が恩恵を受けるか」を示す、臨床的に最も伝えやすい指標
- NNTだけでなくNNH(害の必要数)との比較で、ベネフィットとリスクのバランスを判断する
- 信頼区間は効果の大きさと精度を同時に教えてくれる。p値よりも情報量が多い
- 複合エンドポイントは内訳を確認する。構成要素の客観性と重要度が揃っているかが大事
- 早期終了された試験の「劇的な効果」は過大評価の可能性を疑う
- サブグループ解析はあくまで探索的。確定的な結論にはならない
- 非劣性試験は非劣性マージンの妥当性を確認し、「劣っていない」と「同等」は別の意味
NNTで患者さんに説明できる薬剤師は、医師からも患者さんからも信頼されます。まずは次に読む論文で、両群のイベント発生率からARRとNNTを計算してみてください。それだけで、数字の見え方が変わるはずです。
次回の第6回では、複数のRCTをまとめたシステマティックレビューとメタアナリシスの読み方を解説します。
確認先(一次情報):Guyatt GH, et al. Users’ Guides to the Medical Literature(JAMA Evidence)、EBM:根拠に基づく医療(Straus SE, et al.)第5版・治療の章


