hidekatsu-izuno 日々の記録

プログラミング、経済政策など伊津野英克が興味あることについて適当に語ります(旧サイト:A.R.N [日記])

因果推論とは何なのか

最近、因果推論がはやっている。はやっているのだが、これがさっぱりよくわからない。いろいろな方が資料を公開してくれているので手がかりはたくさんあるものの、手法が中心になっているものが多く、統計学全体からみた位置づけのような理解に必要な情報が欠けている。

前回の記事で書いたように、因果性は科学哲学において難問とされており、いまだ定義できないものとされている。定義できないのに因果推論とはどういうことなのか。

過去、統計学の文献を開くと「重回帰分析で因果関係はわかる」「ベイズ推定で因果関係はわかる」といった記述をたびたび見かける。今までの「因果関係がわかる」と因果推論の「因果関係がわかる」は何が違うのだろうか。

今回は次の資料を元にどのように理解すべきか考えてみたい。例によってまったく専門家ではないので、間違った理解に基づいている可能性は極めて高いことをあらかじめ断っておく。

まず思ったのは「因果性の必要十分条件は○○である。因果推論手法Xは○○を満たしているから因果関係を明らかにしたと言える」という問題文に照らしてはどうか、ということだ。これについては政治哲学でも有名なジョン・スチュアート・ミルの「ミルの三条件」が知られている。

  1. XはYよりも時間的に先行していること
  2. XとYの間に関連があること
  3. 他の因果的説明が排除されていること

しかし、これは必要条件に過ぎない。前述のように、因果性の必要十分条件はいまだわかっていないのだから当然だ。とはいえ、スタートラインとしては良いのではなかろうか。

まずは、重回帰分析が3つの条件を兼ね備えているかみてみよう。2の関連性はわかりそうだ。だが、時間的先行や他の因果的説明の排除はできそうにない。ベイズ推定はどうだろうか。2 に加えて条件付き確率の存在によって 1 も解決できそうだ。しかし、3 の他の因果的説明の排除はできそうにない。

一方、因果推論は 3 の他の説明の排除という部分に重点がおかれているように見える。2 の時間的先行についても「介入」という概念により対応できている。

各種資料から私が理解した限り、「因果関係がある」というためには「A. 因果グラフを作る」⇒「B. 因果グラフを整理する」⇒「C. 統計手法を使い関連が実際にあるのか確認する」という3段階が必要となる。この整理に基づけば、バックドア基準、傾向スコア、ランダム化比較試験といった手法はいずれも「B. 因果グラフを整理する」ため手法だと言える(ランダム化比較試験では因果グラフが不要なようにも見えるが、実際には「その他の因果関係すべて」を列挙した上で、ランダム化により影響を排除するよう調整しているとも解釈できる)。

前述の「重回帰分析で因果関係がわかる」という記述も、A、B が満たされた因果グラフがある前提で C を実施した、と解釈すればおかしいとは言えない。勉強時間と成績のように因果グラフが明確でサンプルサイズが増えれば他の変数の影響も緩和されるような内容であれば問題ない。ようするに因果推論に足りない要素を人間が記述で補っているということだ。

これはベイズ推定でも同様だろう。「現代哲学のキーコンセプト 因果性」によれば確率論的アプローチには因果が重複したり過剰であったりする場合の解決ができない。外的な記述で補う必要が出てくる。

とはいえ、因果推論の使用もあらゆる意味で因果関係を解決しているわけではない。「A.因果グラフを作る」という点については人間の作業によっている。*1また、前述のサイトにも書かれているように「ミルの3条件」以外の条件、例えば「因果関係を想定することが妥当と考えらる理論的裏付け」、「データの収集が適切であること」はいかなる因果推論手法を用いても決して解決するとは思えない。

ようやく因果推論が何なのかわかった気がする(気がするだけかもしれないけど)。因果推論は、今まで統計手法を否定するものというより、人間の記述によってしか解決できなかった因果の条件と解決法を明確化するための補完的な手法と理解するのがよいのだろう。

*1:これには因果推論の役割ではなく、因果探索という別の手法が用意されている。