ルンバとしてのブートストラップ法

「ブートストラップ平均が使える時と使えない時」と題したエントリ(原題は「Bootstrap averaging: Examples where it works and where it doesn’t work」)でアンドリュー・ゲルマンが、最近Aki Vehtarizと共著した小論を紹介している。
まず、ブートストラップ法による平滑化がうまくいく事例。

Bayesian posterior distributions are commonly summarized using Monte Carlo simulations, and inferences for scalar parameters or quantities of interest can be summarized using 50% or 95% intervals. A 1-\alpha interval for a continuous quantity is typically constructed either as a central probability interval (with probability \alpha/2 in each direction) or a highest posterior density interval (which, if the marginal distribution is unimodal, is the shortest interval containing 1-\alpha probability). These intervals can in turn be computed using posterior simulations, either using order statistics (for example, the lower and upper bounds of a 95% central interval can be set to the 25th and 976th order statistics from 1000 simulations) or the empirical shortest interval (for example, the shortest interval containing 950 of the 1000 posterior draws).

For large models or large datasets, posterior simulation can be costly, the number of effective simulation draws can be small, and the empirical central or shortest posterior intervals can have a high Monte Carlo error, especially for wide intervals such as 95% that go into the tails and thus sparse regions of the simulations. We have had success using the bootstrap, in combination with analytical methods, to smooth the procedure and produce posterior intervals that have much lower mean squared error compared with the direct empirical approaches (Liu, Gelman, and Zheng, 2013).
(拙訳)
ベイズの事後分布をモンテカルロシミュレーションを用いて推計することは良く行われる。分析対象となるスカラーのパラメータや統計量は、50%や95%の区間推定から求められる。連続的な統計量の1-αの区間は、中心確率区間(双方向にα/2の確率)、もしくは最大事後分布密度区間(即ち、周辺分布が単峰形ならば、1-αの確率となる区間の最短のもの)として構築されるのが普通である。こうした区間は、順序統計量(例えば、95%中心区間の上限と下限は、1000回のシミュレーションにおける順序統計量の25番目と976番目として設定できる)、もしくは分析結果における最短区間(例えば、1000回の事後分布からの抽出において950個を含む最短の区間)を用いる形で、事後分布のシミュレーションから計算できる。
大規模なモデルや大規模なデータセットにおいては、事後分布のシミュレーションは手間が掛かるものとなったり、シミュレーションにおける有効な抽出数が少なくなったり、中央もしくは最短の事後区間モンテカルロシミュレーションでの誤差が大きなものとなったり――特に95%のような幅広い区間については、分布の裾、即ちシミュレーション結果が疎な領域に差し掛かるので――する。我々はブートストラップ法と各種分析手法を組み合わせて計算過程の平滑化を行い、直接的な分析手法より平均平方誤差がかなり低い事後区間を生み出すことに成功した(Liu, Gelman, and Zheng, 2013)。

次に、うまく行かない事例。

When there is separation in logistic regression, the maximum likelihood estimate of the coefficients diverges to infinity. Gelman et al. (2008) illustrate with an example of a poll from the 1964 U.S. presidential election campaign, in which none of the black respondents in the sample supported the Republican candidate, Barry Goldwater. As a result, when presidential preference was modeled using a logistic regression including several demographic predictors, the maximum likelihood for the coefficient of “black” was -\infty. The posterior distribution for this coefficient, assuming the usual default uniform prior density, had all its mass at -\infty as well. In our paper, we recommended a posterior mode (equivalently, penalized likelihood) solution based on a weakly informative Cauchy (0, 2.5) prior distribution that pulls the coefficient toward zero. Other, similar, approaches to regularization have appeared over the years. We justified our particular solution based on an argument about the reasonableness of the prior distribution and through a cross-validation experiment. In other settings, regularized estimates have been given frequentist justifications based on coverage of posterior intervals (see, for example, the arguments given by Agresti and Coull, 1998, in support of the binomial interval based on the estimate \hat{p}=\frac{y+2}{n+4}).

Bootstrap smoothing does not solve problems of separation. If zero black respondents in the sample supported Barry Goldwater, then zero black respondents in any bootstrap sample will support Goldwater as well. Indeed, bootstrapping can exacerbate separation by turning near-separation into complete separation for some samples. For example, consider a survey in which only one or two of the black respondents support the Republican candidate. The resulting logistic regression estimate will be noisy but it will be finite. But, in bootstrapping, some of the resampled data will happen to contain zero black Republicans, hence complete separation, hence infinite parameter estimates. If the bootstrapped estimates are regularized, however, there is no problem.

The message from this example is that, perhaps paradoxically, bootstrap smoothing can be more effective when applied to estimates that have already been smoothed or regularized.
(拙訳)
ロジスティック回帰で分離*1が存在する時、係数の最尤法による推計値は無限大に発散する。ゲルマンら(2008)は、1964年の米大統領選の投票結果を例にこれを説明している。その選挙では、サンプル中の黒人回答者で共和党候補のバリー・ゴールドウォーターを支持した者は誰もいなかった。その結果、人口統計的な予測要因を幾つか含んだロジスティック回帰を用いて大統領の選択をモデル化したところ、最尤法による「黒人」の係数はー∞となった。通常デフォルト的に使われる一様分布を事前分布の密度関数として仮定した場合、この係数の事後分布もまたー∞にすべてのウェイトが集中した。我々の論文では、係数をゼロ方向に引き寄せる情報をやや含むコーシー分布(0,2.5)分布を事前分布として、最頻値の事後分布解(ペナルティ付きの最尤推定解と等価)を推奨した。その後、正則化に関する他の似たような手法が幾つか提唱された。我々は、自身が求めた解を、事前分布の妥当性と交差検定の実証結果に関する議論に基づいて正当化した。他の手法での正則化された推計は、事後分布のカバレッジに基づき、頻度主義的に正当化されている(例えば、\hat{p}=\frac{y+2}{n+4}推計に基づく二項区間を支持するAgresti and Coull, 1998*2の議論を参照)。
ブートストラップによる平滑化は分離問題を解決しない。もしサンプル中の黒人回答者が誰もバリー・ゴールドウォーターを支持しないならば、どんなブートストラップ法によるサンプルでも黒人回答者は誰もバリー・ゴールドウォーターを支持しない。実際、ある種のサンプルについては、ブートストラップ法は準完全分離を完全分離にすることによって分離問題を悪化させてしまうかもしれない。例えば、一人か二人の黒人回答者だけが共和党候補を支持した調査結果を考えてみよう。ロジスティック回帰による推計結果は誤差は大きいが、有限となるはずだ。しかし、ブートストラップでは、再採取されたサンプルデータのあるものでは黒人の共和党員はゼロとなり得る。その場合、完全分離となり、推計されたパラメータは無限大となる。ただし、もしブートストラップ法による推計結果が正則化されれば、問題は生じない。
この事例の教訓は、逆説的かもしれないが、ブートストラップによる平滑化は、既に平滑化ないし正則化された推計値に適用するとより効果的である、ということである。

*1:この話についてはぐぐると日本語参考資料としてこれが見つかった。

*2:ungated版関連Wikipedia記事