hidekatsu-izuno 日々の記録

プログラミング、経済政策など伊津野英克が興味あることについて適当に語ります(旧サイト:A.R.N [日記])

ベイズ統計学に関する議論を整理する

最近、「統計学を哲学する」の出版をきっかけとした Twitter 上の議論を追いかけながらベイズ統計学について調べている。

統計学を哲学する

統計学を哲学する

  • 作者:大塚 淳
  • 発売日: 2020/10/26
  • メディア: 単行本(ソフトカバー)

前々からベイズ統計学については興味があったので、議論を追ったら何かしらの理解を深められるのでは、と思い関連するツィートを読んでみたのだが、これがびっくりするほどわからない。

通常「わからない」と書いたら高度な数学的議論が繰り広げられているからわからない、という意味だと思われるかもしれないがそうではない。そもそも何が論点なのかもはっきりとせず、議論らしき議論も行われず、ほとんどうんこの投げ合いと呼んでもいい状況だったのだ。

なるほどこれが「頻度主義 vs ベイズ主義」の対立なのかと思いもしたのだが、もやもやが残ったこともあり、議論の内容は理解できなくても論点整理くらいはできるだろうと調べ始めたのが運の尽き。「従来型の主観ベイズ解釈 vs 新興の渡辺ベイズ解釈」という日本のベイズ界隈のちょっと面倒な状況に気付かされてしまった。

個人的に言いたいことは沢山あるが、今回は中立的な視点で論点を整理するだけにした。あくまで論点なので、その正否に関して判断は行わない。各論点への伊津野の見解は別エントリで書こうと思う。論点が漏れているのではと思われるようであれば、コメント頂きたい。

1. 頻度主義とベイズ主義は対立するのか

頻度主義とベイズ主義は対立するのか。これに関してはふたつの切り口で整理が必要だと考える。

1.1 過去において頻度主義とベイズ主義の対立は意味があったのか

過去において頻度主義とベイズ主義の対立があったことは歴史的事実であって、それを否定する人はいない。では、それに意味があったのか。渡辺ベイズにおいては「悲しい歴史があった」と書かれているが、Ken McAlinn 氏による対立議論によって手法が開発されたので不毛ではないという見解もある。

1.2 現在において頻度主義とベイズ主義に対立があるのか

ここが主要な論点だが、この点についてはいくつかの立場がある。

  • A) 頻度主義とベイズ主義は異なるものだが、両立するので対立しない
  • B) ベイズ主義は頻度主義を包含する。
  • C) 頻度主義はベイズ主義を包含する。
  • D) A, B, C の間でいまだ対立がある

こうやって議論を書いているのだから D だろうという考え方もあるが、一部で主張されているのか、世界的にそういう主張が主流であるのか、ではまったく違う話だろう。

事前確率が自由に設定できるというベイズ主義の自由度の高さを考えると、 C はないと思うのだが、この後に出てくる「ベイズ主義においてもパラメータは定数、データは確率変数」という意見を見るに、渡辺ベイズは C を志向しているのではないかと思われる節もある。

また、B について最尤推定ベイズ推定の特殊な形であるという限定的な意味でそのように主張している可能性がある。

2. 「主観確率」「意思決定論」によるベイズ解釈は役に立つのか

調べ始める前に思ったのは、論者により「主観的」の用法が一致していない可能性だった。用法が違うならば議論は絶対に成立しない。実は違う視点で同じことを言っている可能性すらある。

なお、黒木氏によるベイズ解釈は役に立たないという主張は、主観ではリスクの比較ができないというものである。

また、この問いについては、「ベイズ統計が主観確率を扱っているという言説自体が無意味」、あるいは、問い自体が無意味(これについては説明が必要なのでここでは割愛する)という考え方もある。

3. ベイズ統計学において「パラメータは確率変数、データは定数」という説明は正しいか

下記はベイズ統計学の書籍で広く採用されている頻度論とベイズの違いを表現する表だ。

     頻度論 ベイズ
パラメータ 定数 確率変数
データ 確率変数 定数

この表に対し、次の2つの反対意見が見られる。

  • ベイズにおいてもデータは確率変数である
  • ベイズにおいてもパラメータは定数、データは確率変数である

後者に関して、渡辺澄夫研究室出身の方がそう発言されておられたので、もしかすると渡辺ベイズではそういう解釈をするのかもしれない。

また、これに関連する議論として、2つの見解が黒木氏により提起されている。

  • A) 「ベイズにおいてデータは無作為抽出が前提となっている」
  • B) 「ベイズであるか否かによらず、真の値は決まっている」

2020/12/19 追記:「ベイズにおいてもパラメータは定数、データは確率変数である」という発言やそれを肯定するツィートが実際にあったからそう書いているのだが、黒木氏の真意としてはここに記載されているように、何を確率変数にするかは戦略的に決めるということのようだ。だが、主義を置かないとした結果、そう置かざるを得なくなっているだけのようにも感じる。また、Ken McAlinn 氏よりベイズ統計学では必ずしも iid を置く必要がないにも関わらず、iid を前提としているとの批判がある。

4. 「ベイズ統計での更新プロセスは最終的に真の分布に到達する」という言説は正しいか

統計学を哲学する」では「ベイズ流の更新プロセスは最終的に真理へと到達しうる」と書かれていたが、真理という語を使うのは情緒的に感じられたので、真の分布と書き換えている*1

この問に対する、黒木氏の批判は「分布族のモデルを使ったベイズ更新によって到達可能なのはそのモデルで実現可能な最良の結果に過ぎません」というものである。

この問については、主張とは別にいくつかの前提条件が付く可能性が想定される。例えば、いくら更新プロセスを走らせたところで事前分布の影響がなくならないケースがあれば、この言説は間違いと言うこともできるが、それが特殊なケースに限られるのであれば、必ずしも問題のある言説とも言えない。なお、同書本文中でも「ある弱い前提さえおけば」という条件が記載されているので、その前提が本当に弱い前提であれば、問題のある言説とは言えない。

5. 「ベイズ統計では仮説が正しい確率がわかる」という言説は正しいか

一般にベイズ統計の利点として「ベイズ確信区間は信頼区間よりも解釈が直感的である」ことが挙げられる。この言説が間違っているならばベイズ統計を使うメリットのひとつが損なわれることになる。

この批判を行っている黒木氏の主張はここで読めるが、判然としない。この言説の前提が明示されていないことを問題視しているのかもしれない。

*1:意味が違ってしまうようであれば修正するので指摘頂きたい