hidekatsu-izuno 日々の記録

プログラミング、経済政策など伊津野英克が興味あることについて適当に語ります(旧サイト:A.R.N [日記])

ベイズファクターが難しすぎる件について

ベイジアンサイドでは p 値に代わるものとしてベイズファクターが推されている。ベイズファクターは、2つのモデルの尤度比から算出される値だ。

p 値の問題点はいろいろあるが、実務的にはデータの追加ができないというところが大きい。ベイズ統計学を使う場合、尤度原理に従う限りデータを随時追加しながら検定を行うことができる。

しかし、このベイズファクター、p 値ほど簡単に導出できないうえに、値の取り扱いが難しい。

  1. 導出が解析的にできない
    ベイズファクターを求めるには周辺尤度を計算する必要があるが、これは解析的に求めることができない(場合が多い)ベイズ推論同様、近似計算を行う必要が出てくる。
  2. 事前分布の影響を受けやすい
    ベイズ推論自体はデータが増えれば事前分布の影響が緩和されるが、ベイズファクターは事前と事後のオッズ比となるため事前分布の影響が緩和されない。このため事前分布として無情報や弱情報の事前分布を使う場合、ベイズファクターの値は使い物にならなくなる。
    ベイジアン的にはそもそも妥当な事前分布を設定すべきで無情報や弱情報を使うべきではない、という考えもあるが、その境界がどこにあるのかはよくわからない。
  3. 計算方法がいろいろある
    メジャーなのは前述の方法だが、2つのモデルが(帰無仮説と対立仮説のような)入れ子の関係の場合に使える Savage-Dickey 法があり、これが良く使われているようだ(ただ、後述のような留意点もある模様)。Arivz の plot_bf を使うことで簡単に求めることができる。
    メジャーでない方式として、p値ベースのベイズファクターとかテストベースのベイズファクターなどもあるようだ。

そしてベイズファクターを求めても、正しく理解/報告できていないケースも後を絶たないようで次のような論文もある。

論文を軽く読んだ限りだと

  • 事前分布を報告していない
  • ベイズファクターが1付近なのに対立仮説を採用
  • ベイズファクターの値をオッズ比や効果量として扱う

みたいなケースが多いようで。事前分布の報告を忘れるというのは分からなくもないけど、後ろの2つは普通にダメな気が……

参考