ベイズファクターが難しすぎる件について

ベイジアンサイドでは p 値に代わるものとしてベイズファクターが推されている。ベイズファクターは、２つのモデルの尤度比から算出される値だ。

p 値の問題点はいろいろあるが、実務的にはデータの追加ができないというところが大きい。ベイズ統計学を使う場合、尤度原理に従う限りデータを随時追加しながら検定を行うことができる。

しかし、このベイズファクター、p 値ほど簡単に導出できないうえに、値の取り扱いが難しい。

導出が解析的にできない
ベイズファクターを求めるには周辺尤度を計算する必要があるが、これは解析的に求めることができない（場合が多い）。ベイズ推論同様、近似計算を行う必要が出てくる。
事前分布の影響を受けやすい
ベイズ推論自体はデータが増えれば事前分布の影響が緩和されるが、ベイズファクターは事前と事後のオッズ比となるため事前分布の影響が緩和されない。このため事前分布として無情報や弱情報の事前分布を使う場合、ベイズファクターの値は使い物にならなくなる。
ベイジアン的にはそもそも妥当な事前分布を設定すべきで無情報や弱情報を使うべきではない、という考えもあるが、その境界がどこにあるのかはよくわからない。
計算方法がいろいろある
メジャーなのは前述の方法だが、２つのモデルが（帰無仮説と対立仮説のような）入れ子の関係の場合に使える Savage-Dickey 法があり、これが良く使われているようだ（ただ、後述のような留意点もある模様）。Arivz の plot_bf を使うことで簡単に求めることができる。
メジャーでない方式として、p値ベースのベイズファクターとかテストベースのベイズファクターなどもあるようだ。

そしてベイズファクターを求めても、正しく理解／報告できていないケースも後を絶たないようで次のような論文もある。

頻度統計は誤用が多く、Bayes統計はその問題を乗り越える代替として広まった。しかしBayes統計(Bayes factor)も誤用が多く89.2%で誤用が見つかった（QRIPs: questionable reporting or interpreting practices）https://t.co/FcoN5f6UuU
— Daisuke MATSUYOSHI (@dicemt) 2024年3月13日

論文を軽く読んだ限りだと

事前分布を報告していない
ベイズファクターが1付近なのに対立仮説を採用
ベイズファクターの値をオッズ比や効果量として扱う

みたいなケースが多いようで。事前分布の報告を忘れるというのは分からなくもないけど、後ろの２つは普通にダメな気が……

参考

各位
ベイズファクターの計算に無(弱)情報事前分布を使うな
ベイズファクターの計算に無(弱)情報事前分布を使うな
ベイズファクターの計算に無(弱)情報事前分布を使うな
ベイズファクターの計算に無(弱)情報事前分布を使うな
ベイズファクターの計算に無(弱)情報事前分布を使うな https://t.co/CEedX2kowg
— Ohkubo Yusaku (@Ohkubo2021) 2021年12月29日

[読書日記を更新しました] 読了：Heck (2018) ネストされたモデル間のベイズファクターなら、いつだってSavege-Dickey密度比で求められるぜ、なんて思うなよ https://t.co/O8OvpPHSuD
— Shigeru ONO (@shig_ono) 2020年5月31日

hidekatsu-izuno 日々の記録

プログラミング、経済政策など伊津野英克が興味あることについて適当に語ります（旧サイト：A.R.N [日記]）

ベイズファクターが難しすぎる件について

参考