「相関係数が高いから、因果関係があるんですよね?」「回帰分析って、相関分析と何が違うんですか?」。論文を読むとき、相関と回帰の違いに混乱することはありませんか。
この記事では、相関と回帰の違いと、それぞれの解釈の注意点を整理します。特に「相関は因果を示さない」という重要な原則を、具体例を交えて解説します。
目次
相関(Correlation)とは
相関とは、2つの変数の間にどの程度の関連があるかを示す指標です。最もよく使われるのがピアソンの相関係数(r)です。
相関係数の解釈
| |r|の値 | 関連の強さ |
|---|---|
| 0.00 – 0.19 | ほとんど関連なし |
| 0.20 – 0.39 | 弱い関連 |
| 0.40 – 0.59 | 中程度の関連 |
| 0.60 – 0.79 | 強い関連 |
| 0.80 – 1.00 | 非常に強い関連 |
rが正なら正の相関(一方が増えると他方も増える)、rが負なら負の相関(一方が増えると他方は減る)を示します。
相関係数が0.8なら、80%因果関係があるってことですか?

オカメインコさん

ポッポ先生
いいえ。相関係数が0.8でも、因果関係があるとは言えません。相関は「関係がある」ことを示すだけで、「どちらが原因でどちらが結果か」はわからないのです。ここが重要なポイントですね
「相関は因果を示さない」― 具体例で理解する
相関と因果を混同すると、重大な誤解を生むことがあります。具体例を見てみましょう。
例1:アイスクリームと溺死者数
アイスクリームの売上と溺死者数には正の相関があります。でも、アイスクリームを食べると溺れやすくなるわけではありません。両方とも「気温が高い」という第3の要因に影響されているのです。
例2:薬剤師の数と交通事故死者数
ある地域の薬剤師の数と交通事故死者数には負の相関があるかもしれません。でも、薬剤師が増えると交通事故が減るわけではありません。両方とも「人口」という第3の要因に影響されているのです。
これらの例からわかるように、相関があるからといって、一方が他方の原因とは限りません。交絡因子(第3の要因)の存在を常に考慮する必要があります。
回帰(Regression)とは
回帰とは、1つ以上の説明変数(独立変数)を用いて、目的変数(従属変数)を予測・説明する手法です。
相関と回帰の主な違いは以下の通りです。
| 相関 | 回帰 |
|---|---|
| 2変数の関連の強さを示す | 1つの変数から他の変数を予測する |
| 対称的(AとBの相関 = BとAの相関) | 非対称的(AからBを予測 ≠ BからAを予測) |
| 因果関係を示さない | 因果関係を仮定してモデル化する |
回帰分析の種類
- 単回帰:説明変数が1つ
- 重回帰:説明変数が2つ以上
- ロジスティック回帰:目的変数が二値(あり・なし)
- Cox回帰:生存時間解析
決定係数(R²)とは
回帰分析でよく使われる指標が決定係数(R²)です。これは、目的変数の変動のうち、説明変数で説明できる割合を示します。
例:R² = 0.64なら、目的変数の変動の64%が説明変数で説明できる。
R²は0から1の値を取り、1に近いほどモデルの当てはまりが良いことを示します。ただし、R²が高いからといって因果関係があるとは言えません。
R² = 0.9なら、90%因果関係があるってことですか?

オカメインコさん

ポッポ先生
いいえ。R²は「予測の精度」を示すだけで、「因果関係の強さ」を示すものではありません。R²が高くても、交絡因子の影響かもしれないのです
まとめ
- 相関:2変数の関連の強さを示す。対称的
- 回帰:1つの変数から他の変数を予測する。非対称的
- 相関は因果を示さない:交絡因子の存在を常に考慮する
- R²:目的変数の変動のうち、説明変数で説明できる割合
- R²が高くても因果関係があるとは言えない
次に論文で「相関が認められた」と書かれていたら、「因果関係がある」とは解釈せず、「何か関係があるかもしれないが、交絡因子の可能性もある」と考えてみてください。


