TOP

/

【疫学専門家監修】交絡を徹底解説 - 結果を歪める、因果推論の最重要課題 - ゼロから学ぶ因果推論 vol.13

【疫学専門家監修】交絡を徹底解説 - 結果を歪める、因果推論の最重要課題 - ゼロから学ぶ因果推論 vol.13

2025.05.13

シリーズ紹介|ゼロから学ぶ因果推論

「医学研究は難しい」、きっと多くの方がそう感じているでしょう。

因果推論は、そんな複雑怪奇な医学研究にスッと一本の軸を通してくれる、まさに医学研究の原理原則とも言える学問です。

因果推論を学ぶことで、複雑に散らばっていた知識の断片が見事なまでに因果推論という幹へと体系立てられていきます。そしてきっと「論文、読めるようになってきたかも」、そんな気持ちになれるはず。

「ゼロから学ぶ因果推論」シリーズは、疫学専門家の監修のもとで「はじめて学ぶ人の気持ち」に寄り添い、具体例や図解を使用して「日本でいちばんわかりやすい因果推論の解説」を目指しました。あなたの歩幅で一歩ずつ。ゼロからの学びをはじめしょう。

はじめに

ある治療が効果を持つのか、それとも別の要因によってそう見えているだけなのか——

因果推論で最も重要で、かつ最も悩ましい問題のひとつが「交絡因子」の存在です。

交絡因子とは、曝露(または介入)とアウトカムの両方に影響を与える第三の変数であり、適切に調整しないと因果効果の推定が歪められる原因になります。

この解説では、交絡因子とは何か、どのようにバイアスが生じるのか、そしてそれをどのように扱えばよいのかを、具体例とともにわかりやすく解説します。

mMEDICI Library | ひらけ、叡智の扉

叡智の扉を、全ての人が開けるように——。

学びは、限られた豊かな人々だけの特権ではありません。

経済的困難に直面する人、地方で学習資源に恵まれない人、家事や育児・仕事に追われる人。

mMEDICI Libraryではそんな人々にこそ、最高の学びを届けるため、研究・キャリア・学習・受験のあらゆるテーマでパブリックヘルスの叡智を集めました。

隙間時間にスマホひとつで、誰もが「一流の知」に触れることを叶えていきます。

「ここを開けば、誰しもが悩みを解決できる」、そんなメディアを目指します。

この記事のまとめ

この記事を読むと分かること

  • 交絡とは何か?

  • 調整すべき変数と調整すべきでない変数の見極め方

  • 交絡の対処方法

この記事は誰に向けて書かれているか

  • 因果推論を学び始めた初学者の方

  • 交絡の理解が曖昧な方

  • 普段、”何となく”調整変数を選んでいる方

因果推論シリーズ

  • vol.1:因果推論の出発点 - 因果と関連の違いとは? -

  • vol.2:因果効果の基本を徹底解説 - Individual Causal Effect(個人因果効果)とAverage Causal Effect(平均因果効果)の違いとは? -

  • vol.3:初心者のためのTarget Trial Emulation(TTE)
    - Part 1 ; ETAFOCAフレームワークについて
    - Part 2 ; 三つの時点で考えるバイアスとその対処法
    - Part 3 ; 論文の実例で理解を深めるTTE

  • vol.4:Exchangeability(交換可能性)を徹底解説 - Randomization(ランダム化)が実現する因果推論の必須条件 -

  • vol.5:Standardization(標準化)を徹底解説 - 交絡調整の基本をわかりやすく図解 -

  • vol.6:Inverse Probability Weighting(逆確率重み付け)を徹底解説 - 交絡調整の基本をわかりやすく図解 -

  • vol.7:Consistency(一致性)を徹底解説 - 観測データと反事実アウトカムを一致させよ -

  • vol.8:Positivity(正値性)を徹底解説 - 因果推論の落とし穴を回避せよ -

  • vol.9:Immortal time biasを徹底解説 - 臨床研究に潜む「不死の時間」の罠 -

  • vol.10:効果修飾を徹底解説 - 私たちは「どの集団における」効果を見ているのか? -

  • vol.11:交互作用を徹底解説 - 複数の介入による相乗効果 -

  • vol.12:DAGを徹底解説

    - 基礎編;因果推論の必須ツールで交絡因子を可視化する
    - 応用編;調整してはならない?コライダーと媒介変数の落とし穴

  • vol.13:交絡を徹底解説 - 結果を歪める、因果推論の最重要課題 -(本記事)

  • vol.14:選択バイアスを徹底解説 - 消えた患者が結果を歪める?- 

  • vol.15:測定バイアスを徹底解説 - ズレたメジャーが、結果を歪める -

  • vol.16:ランダム誤差を徹底解説 - 研究結果は「運」で歪むのか? -

  • vol.17:傾向スコアを徹底解説 - 「治療を受ける確率」で交絡に対処せよ!

  • vol.18:媒介分析を徹底解説 - 治療効果のメカニズムを解き明かせ

執筆者の紹介

氏名:木村鷹介(https://sites.google.com/toyo.jp/ykimura
所属:東洋大学生命科学部生体医工学科・准教授 / 東京都健康長寿医療センター研究所 自立促進と精神保健研究チーム・協力研究員
自己紹介:理学療法士、博士(リハビリテーション科学)。東京都立大学(旧・首都大学東京)卒業後、急性期および回復期病院に10年間勤務。2020年に筑波大学大学院で博士号を取得。現在は医療機関や介護事業所と連携し、脳卒中などを有する高齢者を対象に、身体活動が予後に与える影響を検討する観察研究や、身体活動量の増加を目的とした介入研究に取り組んでいる。また、地域在住高齢者のフレイル・サルコペニア予防に関するコホート研究にも従事している。

編集者

氏名:菊池祐介
所属:mMEDICI株式会社
専門性:作業療法学修士。首都大学東京(現東京都立大学)・東京都立大学大学院を卒業後、病院勤務を経て専門学校・私立大学にて作業療法教育、地域共生社会の醸成に向けたリハビリテーション専門職の支援に関する研究に従事。現在は心身の健康とその人らしさの実現に向け、保険内外でのクライアント支援を展開している。作業療法の社会的意義向上を信念に、mMEDICI株式会社に参画。

監修者

氏名:廣瀬直紀
所属:mMEDICI株式会社
専門性:保健学博士・公衆衛生学修士。東京大学・東京大学大学院を卒業後、外資系製薬企業の日本・グローバルにおいて疫学専門家として薬剤疫学・リアルワールドデータ研究に従事。その後、全ての人がアクセス可能な一流の知のプラットフォームを作り、「知に繁栄を、辺野に豊穣を」実現すべく、mMEDICI株式会社を創業。

1.「交絡」とは何か?

1.1 交絡因子とは

「朝ごはんを毎日食べている子どもは、学力が高い」

 そんな話を聞いたことはありませんか?

これを聞くと、多くの人は「やっぱり朝食は大事なんだ」と思うでしょう。

中には、「うちの子どもの学力をあげるために、毎日きちんと朝ごはんを食べさせよう」と考える人もいるかもしれません。

しかし、本当に朝食と学力の間に直接的な「因果関係」があるのでしょうか?


例えば、毎日きちんと朝食を食べる子どもは、規則正しい生活を送っていることが多いかもしれません。そして、そのような家庭では、親の教育への関心も高い可能性があります。

生活リズムが整っていることや、学習に対する親のサポートがあることは、子どもの学力向上にもつながる可能性があります。

つまり、「生活リズム」や「親の教育への関心」といった背景要因が、朝食を食べるかどうかと、学力の高さの両方に影響を与えている可能性があるのです。


このように「曝露(朝食を毎日食べる)」「アウトカム(学力)」両方に影響を与える共通の原因が存在すると、本来は直接的な因果関係ではないのに、まるで関係があるように見えてしまうことがあります。

この「見せかけの関連」を生み出す因子を「交絡因子(confounder)」と呼びます。

なお、現代の疫学では交絡因子はさらに厳密に定義され、因果構造の仮定に基づいて捉えられます(詳細は第3章で解説します)。

1.2 交絡の定義

交絡は、因果推論において最も基本的で、そして最も厄介な問題の一つです。

データを見たときに「何か関連がありそうだ」と感じても、それが交絡によるもの見せかけの関連であれば、まったく違う結論にたどり着いてしまいます。

しかも、交絡は日常的によく起こる現象です。そのため、因果推論に関わるすべての人が、常に交絡に細心の注意を払う必要があります。


交絡(confounding)は、これまでこのように定義されてきました。

「ある曝露(例:朝食を食べること)とアウトカム(例:学力)との因果関係を推定したいとき、曝露とアウトカムの両方に関連する第三の要因(交絡因子)が存在し、それによって推定が歪められること」

簡単に言えば「本当に知りたい因果関係が、第三の要因によって歪められた状態」です。

そして、交絡因子は次の三条件を満たすものとされてきました。

  1. 曝露と関連している

  2. アウトカムと関連している

  3. 曝露の結果として生じたものではない(中間因子ではない)

この定義はシンプルでわかりやすく、様々な分野で使われてきました(矢野, 他.2013)。


しかし、この古典的な定義は万能ではなく、交絡を正しく扱えないケースもあります
どのような場合に問題が起きるかについては、第3章以降で詳しく紹介します。

1.3 DAGで表す交絡の構造

交絡を理解し、正しく対処するためには、「因果構造」をきちんと考える必要があります。

因果構造を視覚的に整理するために有効なツールがDAG(有向非巡回グラフ:Directed Acyclic Graph)です。

DAGとは、ノード(変数)とエッジ(矢印)を使って、因果構造を図で表現したものです。

DAGについてはこちらので記事で詳細に解説しています。
ゼロから学ぶ因果推論 vol.12-1 DAGを徹底解説(基礎編) - 因果推論の必須ツールで、交絡因子を可視化する -

たとえば、

暴露(X):朝食を食べる
アウトカム(Y):学力が高い
交絡因子(C):親の教育意識

を考えると、DAGは次のようになります。

DAG 暴露(X):朝食を食べる アウトカム(Y):学力が高い 交絡因子(C):親の教育レベル

ここで重要なのは「親の教育意識(C)」が、「朝食(X)」「学力(Y)」両方に影響している点です。

このように、Cを通じて、XとYの間に「見せかけの関連」が生じる構造を「交絡」と呼びます

そして、Cを経由したXとYの経路(X ← C → Y)を、「バックドアパス(backdoor path)」と呼びます。バックドアパスについては、第4章で詳しく解説します。

2.なぜ交絡が問題になるのか?

2.1 交換可能性と交絡

交絡がなぜ問題になるのでしょうか?
それを理解するためには「交換可能性(exchangeability)」という考え方が重要です。

交換可能性についてはこちらの記事で詳細に解説しています。
ゼロから学ぶ因果推論 vol.4 Exchangeability(交換可能性)を徹底解説 - Randomization(ランダム化)により実現する因果推論の必須条件 -

交換可能性とは「フェアな比較ができる状態」を指します。

たとえば「薬を飲んだ人たちのグループ」「薬を飲まなかった人たちのグループ」のアウトカム(例:死亡率、疾病の発症率など)を比べたいとしましょう。

もし両グループにおいて「薬を飲んだかどうか」以外の背景因子(年齢や性別、疾患の重症度など)の分布が全く同じであれば、薬の効果だけを比較することができます。これが「フェアな比較ができる状態」です。

しかし、現実の観察データにおいて、両グループの条件がきれいに揃うことは、まずありません。

たとえば「薬と死亡リスク」の関係を見る場合を考えてみましょう。「高齢者」「重症な人」ほど薬を処方される傾向にあり、同時に「死亡リスク」にも影響を与える場合、「年齢」「重症度」「交絡因子」であるとします。

薬を飲んでいるグループと飲んでいないグループとで「年齢」「重症度」のバランスが異なるため、交換可能性が保証されず、「フェアな比較ができる状態」とはいえません。

このままの状態では「薬と死亡リスク」の因果効果を推定することは難しいのです。

交換可能性が保証されていない状況

つまり交絡因子を調整して、いかに交換可能性を保証するかが因果効果を正確に推定するために不可欠なのです。

2.2 交絡が推定を歪めるしくみ

特に観察研究においては、必ずといっていいほど交絡の問題がつきまといます。

たとえば「運動習慣は心疾患リスクを下げるか?」というリサーチクエスチョンについて観察データを用いて検討したいとしましょう。

ここで注意すべきなのは、運動習慣がある人たちは、

  • 健康意識が高く

  • 食事に気を配り

  • 定期的に健康診断も受けている

といった特徴を持っている可能性があることです。

一方、運動習慣がない人たちは、健康意識が低く、その他の生活習慣にも問題を抱えていることが多いかもしれません。

この状態で、単純に「運動習慣があるか/ないか」でグループを分けて心疾患リスクを比べると、運動習慣そのものの効果だけでなく、健康意識の高さ、生活習慣全体の効果も一緒に見てしまうことになります。

その結果、運動の効果を過大評価する可能性があります(交絡の「向き」については第3章で解説)

運動習慣と健康意識の偏り

観察データから運動の効果を推定したい場合は、交絡因子である健康意識や生活習慣の違いを適切に調整する必要があります。

たとえば、年齢、食習慣、医療行動などの要因が似ている人々の中で「運動習慣がある/ない」を比較することで、より正確な推定ができる可能性があります。

交絡をどのように調整するかについては、第5章で解説します。

3.交絡因子をどう見つけるか

3.1 交絡因子の定義と仮定

交絡因子とは、曝露(X)アウトカム(Y)の両方に影響を与え、フェアな比較を妨げる要因です。

たとえば、「朝食(X)」「学力(Y)」の関係を考えたとき、「親の教育レベル(C)」が両方に影響を与えると仮定できるなら、Cは交絡因子です。

ここで注意したいのは、交絡因子は単なるデータ上の「関連」ではなく、因果構造に基づいて特定する必要があるという点です。

たとえデータ上で「親の教育レベル(C)」「朝食(X)」「親の教育レベル(C)」「学力(Y)」に関連が見られても、それだけで交絡因子とは言えません。

データの統計的関連性だけを見ても、交絡因子かどうかを確定することはできないのです。

因果構造の仮定において、親の教育レベル(C)が学力(Y)にも学力(Y)にも、因果的に影響していると位置付けられる場合に、初めて交絡因子とみなされます

因果構造を描き、矢印をどう仮定するか」

それこそが交絡因子を特定する鍵なのです。

そして、このプロセスを支える有用なツールがDAG(因果ダイアグラム)です。

3.2 交絡の「方向」と「強さ」

交絡因子が存在すると、因果効果の推定にバイアスが生じます。

しかし、単に「交絡がある」とわかっただけでは、交絡バイアスがどちらの方向に働いているか(因果効果を過大評価/過小評価のどちらに歪めるか)、またその影響の大きさは分かりません。

交絡の存在を仮定するだけでなく、その「方向」「強さ」を考えることが、得られた研究結果を正しく解釈するうえで不可欠なのです。

それではまず、「交絡の方向」について具体例で見てみましょう。

因果効果の過大評価が起こる例

  • 曝露(X):運動習慣

  • アウトカム(Y):健康寿命

  • 交絡因子(C):健康意識

因果構造の仮定

健康意識が高いほど、運動習慣がある(C → X)
健康意識が高いほど、健康寿命が長い(C → Y)

結果として、以下のような傾向が生じる可能性があります。

運動習慣があるグループは、健康意識が高い人が多く含まれ、より健康寿命が長い
運動習慣がないグループは、健康意識が低い人が多く含まれ、より健康寿命が短い


運動習慣があるグループと、運動習慣がないグループとでは、健康意識の影響も相まって、健康寿命の長さにより大きな差が生じているかもしれないのです。

つまり交絡因子である健康寿命の影響を見落としてしまうと、運動習慣が健康寿命に与える効果を過大評価する結果になります。

因果効果の過小評価、効果が逆転する例

曝露(X):新薬
アウトカム(Y):死亡リスク
交絡因子(C):疾患の重症度

因果構造の仮定

重症な患者ほど特別な治療を受けやすい(C → X)
重症な患者ほど死亡リスクが高い(C → Y)

結果として、以下のような傾向が生じる可能性があります。

新薬を投与したグループは、重症度が高い人が多く含まれ、死亡リスクが高い
新薬を投与しないグループは、重症度が低い人が多く含まれ、死亡リスクが低い

この場合、重症度という交絡因子によって、本当は新薬に死亡リスクを低下させる効果があったとしても、新薬を投与したグループの死亡率が高く見えてしまいます。

その結果、効果を過小評価してしまい、場合によっては「新薬を投与した方が、死亡リスクが高い」という真逆の因果効果を推定してしまう可能性もあります。

交絡因子のポイント

続いて、「交絡の強さ」について具体的に考えてみましょう。

交絡因子が存在すると、因果効果の推定値が本来の値からずれてしまう、すなわちバイアスが生じます。

ここで重要なのは「交絡がある」という事実だけではなく、交絡によって生じるバイアスがどれくらい大きいのか、すなわち「交絡の強さ」を考えることです。

この交絡によるバイアスの大きさは、主に二つの要素に依存しています:

1. 交絡因子(C)が曝露(X)にどれだけ強く影響しているか
2. 交絡因子(C)がアウトカム(Y)にどれだけ強く影響しているか

この2つの影響がどちらも強いほど、交絡によるバイアスも大きくなる傾向があります。

先ほどの、「暴露(X):新薬」「アウトカム(Y):死亡リスク」「交絡因子(C):重症度」の例についてもう一度考えてみましょう。

たとえば、「重症度(C)」が高い患者ほど「新薬(X)」を処方されやすく(C → X)、同時に「死亡リスク(Y)」も高い(C → Y)とします。

このように、交絡因子「疾患の重症度」「新薬の処方」にも「死亡リスク」にも非常につ結びつきがあり、そして影響の程度も大きいことは想像できますよね。

交絡因子の存在を明らかにするだけでなく、因果効果の推定に与える影響の大きさを吟味することが重要なのです。

より厳密には、感度分析(sensitivity analysis)や定量的バイアス評価(quantitative bias analysis)などの手法を用いて、実際にどの程度の交絡が因果効果の推定に影響しうるのかを検討する必要があります。

3.3 媒介変数・コライダーとの違いと注意点

交絡因子と混同しやすい概念に、「媒介変数(Mediator)」「コライダー(Collider)」があります。

これらを誤って調整すると、新たなバイアスが生じる可能性があるため、慎重な取り扱いが必要です。

媒介変数とコライダーについてはこちらの記事で解説しています。
ゼロから学ぶ因果推論 vol.12-2 DAGを徹底解説 | 応用編:調整してはならない?コライダーと媒介変数の落とし穴 -

媒介変数(Mediator)

媒介変数は、「曝露(X)」から「アウトカム(Y)」への因果経路上に位置する、途中の要因です。

【例】運動(X) →  血圧改善(M) →  心疾患リスク低下(Y)

媒介変数の例

この場合、「血圧改善(M)」は、「運動(X)」による「心疾患リスク低下(Y)」の一部を媒介しています。

媒介変数を調整すると、XからYへの間接効果が除かれるため、全体的な因果効果(total effect)の推定が過小評価される可能性があります。

ただし、媒介効果(mediation effect)そのものを分離して解析したい場合には、あえて媒介変数を調整することもあります。

コライダー(Collider)

コライダーとは、「曝露(X)」と「アウトカム(Y)」から両方矢印が入り込む変数です。

【例】サービス利用(X) → アンケート回答(S) ← 顧客満足度(Y)

DAG サービス利用(X) → アンケート回答(S) ← 顧客満足度(Y)

この場合、「サービス利用(X)」「顧客満足度(Y)」がともに「アンケート回答(S)」に影響を与えています。

コライダーで条件づけ(例:アンケート回答者だけを分析対象とする)を行うと、本来独立だったXとYの間に新たな見かけの関連が生じる可能性があります。これをコライダーバイアス(collider bias)と呼びます。

媒介変数とコライダーのポイント

つまり、媒介変数もコライダーも、調整しないことが基本方針となります。

4.交絡因子をDAGとバックドア基準で考える

4.1 バックドアパスとは何か?

ここでは、DAGと「バックドア基準」を使って、交絡因子を特定し、調整すべき変数を見つける方法を解説します。

まずは、バックドアパスという用語の意味を押さえましょう。

バックドアパスとは、原因(X)から結果(Y)へ向かう因果矢印(X → Y)とは別に、XとYを間接的につなぐ裏口の経路のことです。

たとえば、次のようなDAGを考えてみます。

バックドアパス

この例では、変数CがXにもYにも因果的に影響を与えており、XからYに向かう直接の矢印(X → Y)とは別に、「X ← C → Y」という道筋が存在してます。この経路がバックドアパスです。

バックドアパスには、以下のような特徴があります。


①Xに矢印が「入ってくる」場所から始まる
「C → X」のように、Xが影響を受ける側になる経路です。


中間にいくつかの変数があってもよいが、最終的にはYに到達する
Cからスタートして、そのままYに直接つながっている場合もあれば「Z → W → Y」 のように複数の中間ノードを経由してYに到達する場合もあります。


③この経路が「開いている」と、X と Y の間に「見せかけの関連」が生じる
このバックドアパスが開いている(=遮断されていない)と、XとYのあいだに、本来の因果効果とは別の「見せかけの関連」が混ざってしまいます。

したがって、バックドアパスを適切に遮断(=条件付けして閉じる)しなければ、正しい因果推論はできません

4.2 バックドア基準に従って交絡因子を特定する

では、バックドアパスの影響を取り除き、XがYに与える純粋な因果効果を推定するには、どうすればよいのでしょうか?ここで登場するのがバックドア基準です。

バックドア基準とは、「交絡を生む裏口経路(バックドアパス)を塞ぐには、どの変数で条件付けすればよいか?」を判断するための基準です。

バックドア基準を満たすためには、次の二つの条件が必要です。


①XとYのあいだに存在するすべてのバックドアパスを遮断する
ここで言う「遮断」とは、統計モデルにその変数群を含めて条件付け(調整)するなどして、バックドアパスを閉じることを意味します。

②遮断した変数群の中にXの子孫(=Xの影響を受けた変数)が含まれていないこと
Xの影響を受けた変数に条件付けると、逆に新たなバイアスが生まれてしまう可能性があります。

たとえば、「運動習慣(X)」「心疾患の発症(Y)」の関係を考えた場合、もし「健康意識(C)」が両方に因果的に影響しているなら、Cを統計モデルに含めたり、マッチングで統制するなどして調整します。これにより、健康意識による交絡を遮断し、運動の本来の効果を推定できます。

DAGとバックドアパスについてはこちらの記事で詳細に解説しています。
ゼロから学ぶ因果推論 vol.12-1 DAGを徹底解説 | 基礎編:因果推論の必須ツールで、交絡因子を可視化する -

4.3 調整すべき変数・してはいけない変数〜過剰調整のリスク〜

DAGを描いてバックドア基準を使うと「どの変数を調整すべきか」「逆に調整してはいけないか」を体系的に見極めることができます。

まず、簡単なまとめ表を示します。

調整すべき変数・してはいけない変数

では、それぞれの具体例を見ていきます。


例1:交絡因子(X:朝食、Y:学力、C:親の教育レベル)

この例では、「親の教育意識(C)」「朝食(X)」「学力(Y)」両方に影響を与えています。Zは交絡因子であり、バックドアパス「X ← Z → Y」によって「朝食(X)」「学力(Y)」との間に見かけ上の関連を生み出しています。

「交絡因子(C)」
で条件付けすることで、バックドアパス「X ← Z → Y」を閉じることができ、「朝食(X)」「学力(Y)」に与える因果効果の有無を正しく推定できるようになります。


例2:媒介変数(X:運動習慣、Y:心疾患リスク、M:血圧)

媒介変数(X:運動習慣、Y:心疾患リスク、M:血圧)

この場合、「血圧(M)」が、「運動習慣(X)」「心疾患リスク(Y)」に影響するという途中経路に位置しています(X → M → Y)

「媒介変数(M)」
を調整すると、運動から心疾患への間接効果が除かれてしまい、運動習慣の全体効果(total effect)の過小評価につながります。

※なお、媒介変数を調整することが正当化されるのは「純粋な直接効果(direct effect)」を推定したい場合に限られます。

媒介変数の構造と調整による影響については、こちらの記事で詳細に解説しています。
ゼロから学ぶ因果推論 vol.12-2 DAGを徹底解説 | 応用編:調整してはならない?コライダーと媒介変数の落とし穴 -



例3:コライダー(X:学力、Y:コミュニケーション力、S:大手企業内定)

コライダー(X:学力、Y:コミュニケーション力、S:大手企業内定)

この例では、「大手企業内定(Z)」「学力(X)」「コミュニケーション力(Y)」の両方から影響を受けています。

ここでZに条件付け(=大手企業に内定した人だけに絞る)すると、本来独立だった「学力」「コミュニケーション力」の間に新たな統計的関連が生じます。

直感的に言えば、

学力が高ければ、コミュニケーション力が低くても、大手企業に内定できる
学力が低くても、コミュニケーション力が高ければ、大手企業に内定できる

といった「どちらかでカバーできる」構造があるためです。

その結果、「大手企業内定者」だけを見ると、「学力」と「コミュニケーション力」の間に負の関連があるように見えてしまうのです。

したがって、コライダーである変数「企業内定者」だけを対象とすることでselection bias(選択バイアス)を生み、推定を歪める原因となります。このことが非常に重要です。

このようなリスクを避けるためには、DAGを描き、因果構造を明確に可視化したうえで、調整対象を慎重に選ぶことが不可欠です

特に近年では、バックドアパスをすべて遮断できる最小限の変数集合(minimal sufficient adjustment set)を特定するという考え方が重視されています(Knüppel S, et al. 2010)。

コライダーの構造と調整による影響については、こちらの記事で詳細に解説しています。
ゼロから学ぶ因果推論 vol.12-2 DAGを徹底解説 | 応用編:調整してはならない?コライダーと媒介変数の落とし穴 -

5.どうやって交絡を調整する?

交絡調整の代表的アプローチ

1.標準化(Standardization)
標準化とは「もし曝露群と非曝露群とで、交絡因子の偏りが同じだったらどうなるか?」という仮定のもとに、曝露の因果効果を推定する方法です。

たとえば「年齢」「暴露:運動習慣」「アウトカム:心疾患リスク」に影響する交絡因子であるとしましょう。

運動習慣があるグループは、高齢者の割合が少なく、心疾患リスクが低い
運動習慣がないグループは、高齢者の割合が多く、心疾患リスクが高い

このままでは、心疾患リスクの高さが「運動習慣の有無」によるものか、「高齢者が多く含まれている」ことの影響かを見極めることができません。

そこで標準化では、「非曝露群と曝露群に、高齢者が同じくらいの割合で含めれている場合、心疾患リスクはどうなるか?」を計算することで、交絡因子「年齢」の影響を打ち消すことを目指します。

標準化(Standardization)についてはこちらの記事で詳細に解説しています。
ゼロから学ぶ因果推論vol5 標準化(Standardization)を徹底解説 - 交絡調整の基本をわかりやすく図解 -



2.逆確率重み付け(IPW:Inverse Probability Weighting)
逆確率重み付け(IPW)は、標準化が「交絡因子の割合」を計算に使用するのに対して、IPWでは「ある人が曝露を受ける確率(=傾向スコア)」を計算して、交絡因子の影響を打ち消すことを目指します。

たとえば「高齢者はもともと運動習慣が少ない(傾向スコアが低い)」ことが知られているとします。

このとき「高齢でありながら、運動習慣がある人」は本来なら珍しいケースなので、その人のデータには大きな重みをかけて分析します。

一方で「高齢で、運動習慣がない人」はよくあるケースなので、その人のデータには小さな重みをかけます。

このようにIPWでは「高齢者で、運動習慣がある確率(=傾向スコア)」によって、交絡因子「年齢」の影響を打ち消すことを目指します。

一見して複雑に思えるIPWですが、その考え方はとてもシンプルです。順を追って理解を進めると「意外と簡単で、面白いロジックだ!」と思えるはずです。詳細は以下の解説記事をご覧ください。

ゼロから学ぶ因果推論vol6 逆確率重み付け(Inverse Probability Weighting)を徹底解説 - 交絡調整の基本をわかりやすく図解



3.マッチング
マッチングは、「似たような人同士を比べる」ことで、ある治療や行動の効果を調べる方法です。

たとえば、「運動が心疾患の予防に効果があるか?」を知りたい場合に、マッチングでは、次のようなことをします。

「65歳」「女性」「健康意識が高い」という条件をもち、運動している人と、

「65歳」「女性」「健康意識が高い」とう条件をもち、運動していない人を探してペアを作る。

こうして、「年齢も性別も健康意識も同じ」でも、「運動しているかどうかだけが違う」という2人を比べれば、運動の影響だけを取り出して比べやすくなるというわけです。

まさに、先述の「交換可能性」を作り出すことができるのです。

ただし、条件が複雑に組みわさると、なかなか同じ条件をもつペアが見つからないこともあり、この点はマッチングにおける限界といえます。



4.回帰モデル
回帰モデルでは、交絡因子を共変量(covariates)としてモデルに含めることで、曝露や介入による因果効果を推定します。

たとえば「運動習慣」「心疾患リスク」に与える影響を調べたいとき、次のように計算式を仮定することができます。

心疾患リスク = 運動習慣 + 年齢 + 健康意識 + 誤差

ここで「年齢」「健康意識」は、「運動習慣」「心疾患リスク」の両方に関連する交絡因子と考えられます。

このような変数を回帰モデルに含めることで、「年齢や健康意識が同じだったとしたら」という状況を計算の上でつくりだして「運動習慣」と「心疾患リスク」の関係を評価する、つまり交絡を統計学的に調整することができるのです。

ただし、モデルの仮定、つまり「心疾患リスク」と「運動習慣」、その他の交絡因子の関係を、本当にこの計算式で正しく捉えることができているのか、慎重に見極める必要があることを理解しておく必要があります。

6.まとめ

ここまで、交絡について基礎から丁寧に解説してきました。最後に、要点をコンパクトに振り返りましょう。

  • 交絡とは、曝露とアウトカムの両方に因果的に影響を与える要因によって、本来の因果推定が歪められる現象です。

  • 交絡因子の特定には、単なるデータの相関ではなく、因果構造に基づく仮定が不可欠です。

  • DAGとバックドア基準を活用して、交絡因子を見極め、必要最小限の変数を調整することが鍵となります。

  • 交絡調整の手段としては、標準化、IPW、マッチング、回帰モデルなどがあり、適切な対処方法の選択と運用が正しい因果推論に不可欠です。

因果推論に取り組むうえで、交絡に対する正確な理解と慎重な対応は、極めて重要です。
迷ったときこそ、基本に立ち返り、因果構造を見つめ直すことを忘れないでください。

参考文献

矢野栄二, 他(監訳). ロスマンの疫学 第2版. p200, 篠原出版新社, 2013.

Knüppel S, Stang A. DAG program: identifying minimal sufficient adjustment sets. Epidemiology. 2010; 21: 159.


参考図書:『Causal Inference: What If

Causal Inference: What Ifとはハーバード大学のSPHで教鞭をとるMiguel Hernan氏とJames Robins氏によって執筆された因果推論の金字塔的書籍です。

mJOHNSNOWでは、こちらの書籍を用いて輪読会を行い因果推論をゼロから学んでいます。

因果推論を学ぶならオンラインスクールmJOHNSNOW

この記事を読み、「もっと因果推論を学びたい」と思われた方もいらっしゃるでしょう。

そんな方には弊社が運営するオンラインスクールmJOHNSNOWがお勧めです。

mJOHNSNOWはスペシャリストが運営する臨床研究・パブリックヘルスに特化した日本最大規模の入会審査制オンラインスクールです。運営・フェローの専門は疫学、生物統計学、リアルワールドデータ、臨床、企業など多岐に渡り、東大、京大、ハーバード、ジョンスホプキンス、LSHTMなど世界のトップスクールの卒業生も集まっています。

本日解説した因果推論の講義に加えて、みなさんの専門性を伸ばすためのコンテンツが目白押しです!

・スペシャリスト監修の臨床研究・パブリックヘルスの講義が毎月7つ以上開催
・過去の講義が全てオンデマンド動画化されたレポジトリー
・スクール内のスペシャリストに学術・キャリアの相談ができるチャットコンサル
・フェローが自由に設立して学べるピアグループ(ex. RWDピア)
・24時間利用可能なオンライン自習室

「パブリックヘルスを、生き様に」をミッションに、『初心者が、自立して臨床研究・パブリックヘルスの実践者になる』ことを目指して学んでいます。初心者の方も大勢所属しており、次のような手厚いサポートがあるので安心してご参加ください!

・オンデマンド動画があるから納得するまで何回でも、いつでも学び直せる
・チャットコンサルで質問すれば24時間以内にスペシャリストから複数の回答が
・初心者専用の「優しいピアグループ」で助け合い、スペシャリストが”講義の解説”講義を毎月開催

詳細を見る無料体験に申し込む

【YouTubeラジオコンテンツ 耳から学ぶシリーズ】

耳から学ぶシリーズ バナー

YouTubeラジオコンテンツ「耳から学ぶシリーズ」は、仕事や育児で忙しい人が10分のスキマ時間に“ながら聞き”で学べる音声コンテンツです。

すべてのコンテンツを疫学専門家が監修し、完全無料で毎日投稿していきますので、ぜひチャンネル登録してお待ちください。

シリーズ一覧

シリーズ紹介|ゼロから学ぶ因果推論

「医学研究は難しい」、きっと多くの方がそう感じているでしょう。

因果推論は、そんな複雑怪奇な医学研究にスッと一本の軸を通してくれる、まさに医学研究の原理原則とも言える学問です。

因果推論を学ぶことで、複雑に散らばっていた知識の断片が見事なまでに因果推論という幹へと体系立てられていきます。そしてきっと「論文、読めるようになってきたかも」、そんな気持ちになれるはず。

「ゼロから学ぶ因果推論」シリーズは、疫学専門家の監修のもとで「はじめて学ぶ人の気持ち」に寄り添い、具体例や図解を使用して「日本でいちばんわかりやすい因果推論の解説」を目指しました。あなたの歩幅で一歩ずつ。ゼロからの学びをはじめしょう。

因果推論シリーズ

  • vol.1:因果推論の出発点 - 因果と関連の違いとは? -

  • vol.2:因果効果の基本を徹底解説 - Individual Causal Effect(個人因果効果)とAverage Causal Effect(平均因果効果)の違いとは? -

  • vol.3:初心者のためのTarget Trial Emulation(TTE)
    - Part 1 ; ETAFOCAフレームワークについて
    - Part 2 ; 三つの時点で考えるバイアスとその対処法
    - Part 3 ; 論文の実例で理解を深めるTTE

  • vol.4:Exchangeability(交換可能性)を徹底解説 - Randomization(ランダム化)が実現する因果推論の必須条件 -

  • vol.5:Standardization(標準化)を徹底解説 - 交絡調整の基本をわかりやすく図解 -

  • vol.6:Inverse Probability Weighting(逆確率重み付け)を徹底解説 - 交絡調整の基本をわかりやすく図解 -

  • vol.7:Consistency(一致性)を徹底解説 - 観測データと反事実アウトカムを一致させよ -

  • vol.8:Positivity(正値性)を徹底解説 - 因果推論の落とし穴を回避せよ -

  • vol.9:Immortal time biasを徹底解説 - 臨床研究に潜む「不死の時間」の罠 -

  • vol.10:効果修飾を徹底解説 - 私たちは「どの集団における」効果を見ているのか? -

  • vol.11:交互作用を徹底解説 - 複数の介入による相乗効果 -

  • vol.12:DAGを徹底解説

    - 基礎編;因果推論の必須ツールで交絡因子を可視化する

    - 応用編;調整してはならない?コライダーと媒介変数の落とし穴

  • vol.13:交絡を徹底解説 - 結果を歪める、因果推論の最重要課題 -(本記事)

  • vol.14:選択バイアスを徹底解説 - 消えた患者が結果を歪める?- 

  • vol.15:測定バイアスを徹底解説 - ズレたメジャーが、結果を歪める -

  • vol.16:ランダム誤差を徹底解説 - 研究結果は「運」で歪むのか? -

  • vol.17:傾向スコアを徹底解説 - 「治療を受ける確率」で交絡に対処せよ!

  • vol.18:媒介分析を徹底解説 - 治療効果のメカニズムを解き明かせ

個人・企業からの寄稿を受付中

play_arrow
寄稿ページはこちら