hidekatsu-izuno 日々の記録

プログラミング、経済政策など伊津野英克が興味あることについて適当に語ります(旧サイト:A.R.N [日記])

「ダメな統計学」お勉強メモ

レックス・ラインハート著「ダメな統計学」は、いわゆるトンデモ統計批判の書ではない。ここで説明されるのは、科学者が意図せず間違って使用している確率・統計の手法についてだ。科学者ならば統計についての知識水準は高いものがあるのだろうと思っていたが、実際にはそうではないようだ。ある論文によれば、公刊されたほとんどの論文に問題があるとのこと。

ダメな統計学: 悲惨なほど完全なる手引書

ダメな統計学: 悲惨なほど完全なる手引書

 

 本書は平易に書かれているので読み進めることはできるのだが、前提となる知識が不足しているため、なかなか理解が難しい。過去、確率・統計には何度か挑戦しているのだが、いまだに分かった感がない。残念ながらこの本を読んでも系統だった理解には程遠い。というわけで、今回は、本書のお勉強メモだと思っていただきたい(誤解している部分もあると思うので、思う所があれば指摘願いたい)。本書には面白い事例の紹介に多くのページが割かれているが、そちらは買って読んでもらうとして、ここでは定義や結論を中心に抜粋(場合により補足)した。

第1章 統計的有意性入門

  • p値:有意確率。仮説検定手法のひとつで、結論が誤っているならば驚くべきことである確率。経験的に、5%有意(p値<0.05)とか1%有意(p値<0.01)で判断する。結果が単一値で求まり便利なため広く使われている。
  • 偽陽性:間違った結論を正しいとしてしまうこと
  • 偽陰性:正しい結論を間違っているとしてしまうこと
  • p値の誤解1:統計的に有意である=効果が大きい、ことを意味するわけではない
  • p値の誤解2:統計的に有意ではない=効果がない、ことを意味するわけではない
  • p値の誤解3:p値=偽陽性率と解釈してはいけない。期待する偽陽性率を有意水準として定め、有意か否かの判断をするためだけにしか利用できない。
  • p値の問題1:同じ観測データを使っても、観測されていないデータの違いで異なる値が出る(問題設定がp値に影響する)
  • 有意性を見たいのであれば、信頼区間を使う方が適切。

第2章 検定力と検定力の足りない統計

  • 検定力:偶然と効果を区別する確率。経験的には、検定力が80%以上あれば良しとされる
  • 小さな効果を調べるには、多くのデータがないと十分な検定力が得られない
  • データが足りないと、分散が大きくなり効果が誇張される
  • データ群にデータ数のばらつきがある場合(例えば、都道府県ごとの人口が影響する調査)は、縮小処理(データ群に対する重み付け)が有効だが、本当に極端な現象が起こっていることを隠してしまう場合がある
  • 効果を見たいのであれば、有意性検定や検定力を見るかわりに、信頼区間を見るべき。有意でも信頼区間の広い結論は解釈が困難なことがわかるし、信頼区間にゼロが含まれていても、狭ければ効果が小さいことを示唆しているのかもしれない。
  • 信頼区間の応用例として、リコメンデーションの機能に信頼区間の下限を重みを使うことで、より適切な評価ランキングが実現できるという例が挙げられている。

第3章 疑似反復:データを賢く選べ

  • 疑似反復:独立していないデータを繰り返し取得すること
  • 交絡因子:有意な結果をもたらす隠れた原因
  • データ数は多くても、独立でないため意味がない。独立でないデータは平均化などの処理を行う必要がある(計測誤差は減るという意味では意味がある)
  • データの入手ルートが異なる場合、系統誤差が発生する可能性がある。主成分分析を行うことで入手ルートごとの偏りを補正することができる。
  • 有意=効果がある、ではない。交絡因子が原因となっている可能性など、きちんと結論を導き出せる実験の設計が必要

第4章 p値と基準率の誤り

  • 基準率:調査対象のうち有効なものが含まれる確率 
  • p値は効果がある場合の確率ではなく、あくまで効果がないとしたら驚くべき結果が出る確率。そのため、調査対象に無効な対象が含まれている場合には、偽陽性の確率が上がり有意であるからといって正しいとは言えなくなる。
  • 何度も同じ調査を繰り返す場合も同じ現象が起こる。
  • 複数回調査した場合はp値を回数で割ることで偽陽性の確率を下げることができるが、検定力が下がる(ボンフェローニ法)。より良い方法としてベンジャミーニ=ホッホベルク法がある。

第5章 有意性に関する間違った判断

  • p値は効果の大きさを表さない。そのため、ふたつの調査対象の比較をするときは、それぞれ単独で調査して算出したp値を比較しても意味がなく、両方を直接比較する必要がある
  • ふたつのグループのそれぞれの平均に統計的有意差があるかを調べる場合には t 検定を使う

第6章 データの二度づけ

  • 大量のデータから有効性の高そうなデータだけを抽出し分析すると、誇張された結果が得られる
  • 特徴的なデータだけを集めると平均への回帰によって、存在しない効果があるかのように見えてしまう
  • 効果が出た時点で調査をやめると、特徴的なデータが多く含まれた状態になりやすいため、誇張された結果が得られる

第7章 連続性の誤り

  • データを不必要に分割して分析するのは偽陽性が増すためやめるべき。回帰分析を使えば、あえて分割して分析する必要がない。
  • どうしても分割したい場合には、コンセンサスのある外部の基準に従うこと。データを上手く分離できる最適な基準を選ぶと、p値が良い分割となり誇張された結果が得られてしまう。

第8章 モデルの乱用

  • データに比べ変数の数が多い場合、過剰適合が起こる。
  • 重要な変数を選んでいく段階的回帰(ステップワイズ法)は、何度も比較する場合と同様、偽陽性が発生し、過剰適合が起こりやすくおすすめできない。変数を選ぶ基準に赤石情報量規準(AIC)やベイズ情報量規準(BIC)を使うとある程度過剰適合を抑えることはできる。
  • データを教育用と検証用にわけ交差検証を行うと過剰適合しているかの確認が可能。
  • 相関と因果は違う。
  • シンプソンのパラドックス:全体の傾向と部分の傾向では異なる場合がある
  • ランダム化試験なしに交絡因子を防ぐことはできないが、一方でランダム化試験が現実的にはできない場合も多い

第9章 研究者の自由:好ましい雰囲気?

  • 研究者はデータや手法だけでなく分析目的すらも自由に選ぶことができる。そのため、結果として研究者にとって都合の良い結果を導きやすいというバイアスがある。
  • 探索的研究と確認的研究を混同すべきではない。研究目的、手法を決めてから分析をするべき。

第10章 誰もが間違える

  • 統計手法に長けていない問題以前に、そもそもp値を正しく計算できていないケースも多い(「ネイチャー」掲載論文の38%でp値に誤字や掲載間違いがあったそうだ)
  • 再現できない研究成果も多い。医学で最も引用されている研究論文の四分の一が刊行後に再試験されておらず、三分の一が後で誤りか誇張されていることが発覚している。

第11章 データを隠すこと

  • データを公開しないことで論文の問題を隠す場合がある。
  • 効果がない、という研究は発表されにくいため、メタ分析をすると効果がある方に偏りが生じてしまう。

第12章 何ができるだろうか

  • p値を使わず信頼区間と効果量推定を使え。
  • まじめに学ぶには時間がかかるので統計学者を外注しろ。

読後の感想

  • 確率統計よくわからんなぁ、と思っていたがみんなわかっていないのだということがわかって安心した(おい)
  • 時系列分析とか正規分布でない場合の注意事項について知りたかったのだけど、載っていなかったのが残念。