hidekatsu-izuno 日々の記録

プログラミング、経済政策など伊津野英克が興味あることについて適当に語ります(旧サイト:A.R.N [日記])

なぜ統計学には主義が必要なのか

前回「ベイズ統計学に関する議論を整理する」では、できるだけ中立的な視点で書くことに注力し、伊津野なりの結論については特に書かなかった。今回のエントリでは、様々な見解や調べた結果を元に私見を書く。

もちろん、伊津野は専門家ではなく、情報や理解が不足する部分については想像で補ったため「それはおかしい」と感じられる点もあるだろう。そのような記述を見つけたら、単に批判を書くのではなく、なぜ問題だと思うのか、自身のブログやTwitterなどで他の人間にも理解できるように論点を明確に書くようにしてほしい。うんこの投げ合いはうんざりだ。それに、コメント欄に批判や反論を書かれても、伊津野の理解力では適切な回答ができるとは思えない。広い範囲に意見を投げかけた方がより専門的な回答が得られ生産的だろう。*1

前置きが長くなったので本論に移ろう。

まず先に結論を述べる。現在、ベイズ統計学は「(頻度主義とは異なる)主観ベイズ主義に基づく統計学」として世界的に受容されており、「渡辺ベイズ解釈」は日本の特定の論者が主張しているだけという状況にある。また、「頻度主義 vs ベイズ主義」という対立は過去あったものの、現在ではそのような争いはなく、頻度主義とベイズ主義という異なる2つの主義が共存している。

誤解してほしくないは、あくまで「渡辺ベイズ解釈」がマイナーなものであるというだけで、それが間違いであると言っているわけではない。しかしながら、「渡辺ベイズ解釈」と異なる理解を表明した記述をトンデモ扱いするのは異常である。たとえ将来的に「渡辺ベイズ解釈」がメジャーな解釈になるとしても、パラダイムシフトが起こるまでは保守的に扱うのが科学的態度というものだろう。もし「渡辺ベイズ解釈」が現代のスタンダードであると思い込み、海外の学会などで「ベイズにおいてデータは確率変数」などと語るならば、怪訝な顔をされるのは間違いない。「渡辺ベイズ解釈」に優れた部分があると思うのであれば、現時点はマイナーな主張であることを前提とした上で、その違いやメリットをアピールすればよいだけだ。マイナーな解釈をまるでメジャーな解釈であるかのように語られるのは、学問を学ぶ上でノイズにしかならない。

この結論を読んだ人の中には、それでも「主義なんて知らんし。俺はデータを分析したいだけだ」と思う方も多いだろう。特に機械学習や数学から統計学を学んだ人ほどこの傾向が強いものと考えられる。なんせ、私自身も当初その立場から調べはじめたのだから。しかし、安心してほしい。これから説明するのは「主義は存在するし必要だが、それほど意識する必要はない」ということだ。統計学において「主義」が何を意味をしているのかさえ理解しておけば、あとは統計学の実務に邁進すればいい。

このことを説明するために2つの事前準備を行う。ひとつは「主義」「主観的」という言葉の用法だ。なぜ、この用語を説明しなければならないかと言えば、そもそも論者の中でも理解が統一されていないからだ。当初、私も論者それぞれが定義しないのが問題なのではないかと考えていのだが、調べているうちにそうでないことがわかった。これらは「哲学のテクニカルターム」である。

実のところ統計学者でも「主義」の意味を正しく理解できていない人が多いように感じる。昔、科学哲学の本を読んだ際には「面白いけどまったく役に立たない」と感じたものだが、こんなところで役に立つとは思わなかった。

「主義」という言葉を聞くと、どうしても「共産主義」や「資本主義」のようにイデオロギーの色をまとってしまう。だが、「主義」自体にそのような意味合いはない。例えば、Wikipedia 英語版にも「接尾辞「-ism」は中立であり、したがって、それが識別する多くのイデオロギーのいずれにも関連する意味合いを持たない」と記述されている。では、どういう意味かと言うと「一貫したものの見方」程度の意味である。「渡辺ベイズ」論者の中には、「これは新たな主義と言ってよいのでは?」という記述を見て主義呼ばわりはけしからんと思ったようなのだが、その時点で「主義」という言葉の意味を誤解している。主観ベイズ主義を批判し、実際既存の主義とは全く異なる観点から構築されている以上、異なる主義なのは明らかだ。既存概念とは異なる新たな主義を1から構築するのはたいした仕事なのだから、むしろ誇るべき事柄のように思えるがいかがだろうか。

次に「主観的」だが、これも客観的の対義語で、単にある主体の内側から見ているという意味に過ぎない。データを分析する統計学の立場から見れば、データから誘導的に決められるものが客観的、それ以外のすべては主観的である。ここで注意してほしいのは、「主観的」「客観的」というのは単なる説明語であり、それ自体にたいした意味はないということだ。経験ベイズ法を使って事前確率を用意するのは客観的と言えるし、主体が決め打ちしているという意味で言えばモデルや分布族の設定は主観的と言える。事前分布も、無情報事前分布を使うのか、経験ベイズ法を使うのか選択できるという意味では主観的である。

もうひとつの事前準備は、科学哲学、統計学、数学の関係性の整理だ。統計学は比較的新しい学問であることから、情報科学出身、物理学出身、数学出身、哲学出身と様々な分野をバックグラウンドにもつ人々から構成されている。そのため「統計学者」という肩書が付いていても、どの立ち位置から発言しているのかがしばしば曖昧になる。なぜ、この整理を行わなければならないのか。科学哲学者の伊勢田氏の言葉を借りれば「興味・関心が異なる」からだ。「興味・関心が異なる」学問をひとつの学問として扱ってしまうとどういう問題が起こるのかは「科学を語るとはどういうことか」を読むとわかりやすいかもしれない。科学哲学者の言う「科学的方法論が正しいという証拠はない」という言説と「科学的方法論によって正しさが証明された物理学」をくっつけた結果、「物理学はすべて間違っている」という結論が導き出され、物理学者が粛清されるようでは大変困ってしまう。学問にはそれぞれに「興味・関心」があり、その範囲で正しさを規定している。「正しい」の定義を物理学者に聞けば「間違いが明らかになっていない」ことだと答えるだろうし、数学者に聞けば「ある公理系について関係が成り立つ」であると答えるかもしれない。そして、科学哲学者に聞けば、おそらく「いまだ模索中である」と返ってくるだろう。

科学哲学、統計学、数学の関係は、科学哲学、物理学、数学の関係を念頭におくとわかりやすい。物理現象を数学を使ってモデル化するのが物理学であるように、データの分析手法を数学を使ってモデル化するのが統計学である。さらに、データの分析手法を細かく見ると「正当性」「因果」「推論」「意思決定」といずれも哲学が取り扱ってきたものであることがわかる。ようするに、物理学の物理現象に当たるものが哲学的概念なのであり、統計学とは哲学的概念を数学を使ってモデル化したものと捉えた方がよいのだ。

p 値を例に挙げよう。p 値が何らかの意味で正しさを判断するために使われるのは、「正しい」とは何かという概念があり、その「正しい」のすべては表現できないにしろ、ある条件においては「正しい」とみなしてもよいだろうという合意があるから意味を持つ。数学の世界だけで閉じてしまえば p 値はただの数字に過ぎず何の意味も持たない。

このように考えれば「渡辺ベイズ」の主張の歪さが見えてくる。渡辺ベイズの主張は、物理現象を扱わない物理学のようなものだ。さらに問題なのは、「良い/悪い」という哲学的概念を扱っているのに、数学的概念の範囲で議論がすべて閉じているかのように語ってしまっていることだ。統計学は、データによって客観的な現実世界を、モデルによって哲学的概念を表現することで成り立っているのにも関わらず、(極端に言えば)ツールに過ぎない数学だけで何かが語れると思うのは相当に極端な態度に思える。

さて、ここまで来れば、ベイズ統計学が「主観確率に基づいている」という言明が当たり前であると同時にたいして意味があることではないことが明らかだろう。まず「合理的な(逆向きの)推定 or 意思決定」という概念があり、その主要な実装としてベイズ統計学が存在しているのだ。推定や意思決定をモデル化した結果なのだから確率が主観的なのは当たり前の話である。また同時に、ベイズ統計学が「人間の推定 or 意思決定」をモデル化していないことも強調しておくべきだろう。あくまで合理的個人が行う前提のモデルであるから「人間の意思決定はもっとデタラメである」のような批判も意味をなさない。

そしてこれも当然であるが、頻度論に基づく統計学は「合理的な(逆向きの)推定 or 意思決定」のために作られていない。すなわち、頻度主義とベイズ主義は異なっており、ひとつにはできないし、同じデータを使っても頻度論とベイズ主義では解釈も結果も異なってくることになる。

では、前回のまとめの各項目に対する私見を述べる。

  • 1.2 現在において頻度主義とベイズ主義に対立があるのか  ⇒ 頻度主義とベイズ主義は異なるものだが、両立するので対立しない
  • 2.「主観確率」「意思決定論」によるベイズ解釈は役に立つのか ⇒ 役に立つ/立たないでなく、それが前提である。
  • 3.ベイズ統計学において「パラメータは確率変数、データは定数」という説明は正しいか ⇒ 主義による。しかしながら、特に説明をおかないのであるば、メジャーである主観ベイズ主義で解釈すべきであろうから、この説明は正しいとすべき。

となる。

なお、「1.1 過去において頻度主義とベイズ主義の対立は意味があったのか」については、どちらの側面もあるため別に結論を出す必要はないだろう。「4. 『ベイズ統計での更新プロセスは最終的に真の分布に到達する』という言説は正しいか」、「5. 『ベイズ統計では仮説が正しい確率がわかる』という言説は正しいか」については、前提条件をどこまで書くべきかという程度問題のように見える。これは人によって判断が分かれるかと思うが、そこまで問題のある記述とは思わない。

*1:正直な話、今回のエントリはまったく自信がない。自信はないが専門家が交通整理をしてくれない以上、私的な理解の整理でもあった方がましだろうと思い公開することにした。