事前分布がベイズ推定を歪める時

昨日紹介したゲルマンのエントリでは、引用部の冒頭で事前分布への固執を戒めていたが、それは、ノアピニオン氏ベイジアンはデータが信用できないと自分の事前分布に固執する、と揶揄したことへの反論を意図していた。そこでノアピニオン氏は、事前分布を間違えるととんでもない結論に至る極端な例として、統計学者のCosma Shaliziが4年前に自ブログで示したケースを挙げている(デロング経由)。今日はそのShaliziのエントリを紹介してみる。

The theme here is to construct some simple yet pointed examples where Bayesian inference goes wrong, though the data-generating processes are well-behaved, and the priors look harmless enough. In reality, however, there is no such thing as an prior without bias, and in these examples the bias is so strong that Bayesian learning reaches absurd conclusions.

Example 1
The data Xi, i=1,2,3,..., come from a 50/50 mixture of two Gaussians, with means at -1 and +1, both with standard deviation 1. (They are independent and identically distributed.) The prior, by coincidence, is a 50/50 mix of two Gaussians, located at -1 and +1, both with standard deviation 1. So initially the posterior predictive distribution coincides exactly with the actual data-generating distribution. After n observations x1, ... xn, whose sum is z, the log-likelihood ratio L(+1)/L(-1) is e2z. Hence the posterior probability that the expectation is +1 is 1/(1+e-2z), and the posterior probability that the expectation is -1 is 1/(1+e2z). The sufficient statistic z itself follows an unbiased random walk, meaning that as n grows it tends to get further and further away from the origin, with a typical size growing roughly like n1/2. It does keep returning to the origin, at intervals dictated by the arc sine law, but it spends more and more of its time very far away from it. The posterior estimate of the mean thus wanders from being close to +1 to being close to -1 and back erratically, hardly ever spending time near zero, even though (from the law of large numbers) the sample mean converges to zero.


(拙訳)
今回のテーマは、データ生成プロセスは素直で、事前分布も十分に無害に見えるにも関わらず、ベイズ推定が間違う、という、単純だが要点を突いた例を構築することにある。実際には、偏りの無い事前分布というものは存在し得ず*1、以下の例ではその偏りが極めて大きいため、ベイズ学習からは馬鹿げた結論が導かれる。


例1
データXi, i=1,2,3,..., は、2つの正規分布を等分に混ぜ合わせた分布から生成される。正規分布はそれぞれ平均が-1と1であり、両者とも標準偏差は1である(分布は独立かつ同一とする)。たまたま事前分布も、平均がー1と1、標準偏差が1の2つの正規分布を等分に混ぜ合わせた分布であるものとする。従って当初は、事後予測分布は、実際にデータを生成する分布と正確に一致する。x1, ... xnのn個の観測値を得て、その合計がzである時、対数尤度比L(+1)/L(-1)はe2zである*2。従って期待値が+1となる事後確率は1/(1+e-2z)であり、期待値が-1となる事後確率は1/(1+e2z)である。十分統計量z自身は不偏なランダムウォークに従う。即ち、nが大きくなるにつれ原点からどんどん離れていき、その乖離の程度はn1/2である、ということである。逆正弦法則*3で示される間隔で原点に戻ることもあるが、そこからかなり離れている時間の方がどんどん長くなっていく。そのため、平均の事後推定値は+1近辺と-1近辺を不規則に行ったり来たりする。(大数の法則から)サンプル平均はゼロに収束するにも関わらず、事後推定値がゼロ近くに滞在することはほとんど無い。


この後にShaliziは、実際にRでコーディングしたシミュレーション結果の図を示している。
また、例2としては、例1の事前分布を、平均=ゼロの(混合分布ではない)正規分布に置き換えたケースを示している。その場合、事後分布も平均=ゼロ、分散=1の正規分布となる。しかしながら、実際のサンプルの分散は、真の分散である2に収束する*4


ちなみにこのエントリを取り上げたデロングは、例1を、より直観的に分かりやすいコイン投げに置き換えた計算例を示している。その例では、実際のコインは表裏の出る確率が半々だが、ベイズ推定を行う人――デロングはAIとしているが――は、表か裏かどちらかが出る確率が3/4になっているに違いないと信じている。その場合、表の出た回数が裏の出た回数を2回上回れば、それまで試行回数をどれほど積み重ねたかに関係なく、その推定者は、表が出る確率の高いコインを観測している確率は90%だと思う。また、10回上回れば、その確信度は99.9983%となる。


なお、Shaliziは読者からのメールに応えて、ベイズ統計学者が馬鹿だと言っているわけではない、まともな学者ならばベイズ推定を行った後にゲルマンの推奨するようなデータとの整合性のチェックを行うはずだ、とエントリに追記している。

*1:ここでShaliziはこの論文にリンクしている。

*2:Πi[exp{-(xi-1)2/2}] / Πi[exp{-(xi+1)2/2}] = exp{2Σi(xi)} = exp{2z} という計算を想定しているように思われるが、その場合、L(+1)/L(-1)は対数尤度比ではなくただの尤度比かと思われる。[追記]当初zは合計ではなく平均であるべきではないかとも書いたが、その点については自分が勘違いしていたことに気付いたので、関連記述を削除訂正した。

*3:cf. WikipediaWikipedia(日本語)ここに書かれているように「The law of long leads」とも言う。本ブログでの関連エントリはこちら

*4:データ生成プロセスは標準偏差が1の正規分布の混合分布なので分散は12+12=2。