部分的に平等主義のLASSO - himaginary’s diary

ビッグデータから予測に使う説明変数を選択する手法について、5/27に紹介したNY連銀ブログエントリでは、以下の2つがある、と説明している。

疎モデル技法は、多数の説明変数候補から、予測力の最も高い説明変数の小集合を選択することに焦点を当てる。その対極に位置する稠密モデル技法では、予測においてはすべての説明変数候補が重要かもしれない、と考える。ただし、説明変数の中には影響が小さいものもあるかもしれない。その洞察は、サンプルにおける情報が劣後しているものについて推計パラメータを事実上強制的に小さくして過剰適合を避ける、という縮退ないし正則化技法の使用を正当化する。
発想は似ているが、この2種類の手法は予測の正確性という点で異なる可能性がある。また、ある係数を押し下げるという縮退を伴う稠密モデルと、ある係数をゼロにするという変数選択を伴う疎モデルとの間には、根本的な違いが存在する。

同エントリの基となった論文（スタッフレポート）では、疎モデル技法の代表例としてLASSO*1を挙げている。

Sparse-modeling techniques focus on selecting a small set of explanatory variables with the highest predictive power, out of a much larger pool of regressors. For instance, the popular lasso belongs to this class of estimators that produce sparse representations of predictive models
（拙訳）
疎モデル技法は多数の説明変数候補から、予測力の最も高い説明変数の小集合を選択することに焦点を当てる。例えば、人気のあるLASSO手法はこの分類の推計量に属し、予測モデルの疎形式をもたらす。

ただ、この論文は疎モデル技法に否定的である。また、4年前に紹介したデータマイニングに関する研究報告も、LASSOに否定的であった。

一方、専門家の経済予測を組み合わせるという、それほどビッグではないデータにおける選択手法としてLASSOを応用したNBER論文をFrancis X. Dieboldが上げている（ungated版、ちなみに本人のブログでは1年前にペン大のWPに上げた時点でこの論文を紹介している）。論文のタイトルは「Machine Learning for Regularized Survey Forecast Combination: Partially-Egalitarian Lasso and its Derivatives」で、共著者は（ここやここで紹介した論文の共著者でもある）Minchul Shin。
以下はその要旨。

Despite the clear success of forecast combination in many economic environments, several important issues remain incompletely resolved. The issues relate to selection of the set of forecasts to combine, and whether some form of additional regularization (e.g., shrinkage) is desirable. Against this background, and also considering the frequently-found good performance of simple-average combinations, we propose a LASSO-based procedure that sets some combining weights to zero and shrinks the survivors toward equality ("partially-egalitarian LASSO"). Ex-post analysis reveals that the optimal solution has a very simple form: The vast majority of forecasters should be discarded, and the remainder should be averaged. We therefore propose and explore direct subset-averaging procedures motivated by the structure of partially-egalitarian LASSO and the lessons learned, which, unlike LASSO, do not require choice of a tuning parameter. Intriguingly, in an application to the European Central Bank Survey of Professional Forecasters, our procedures outperform simple average and median forecasts – indeed they perform approximately as well as the ex-post best forecaster.
（拙訳）
数多くの経済状況において予測を組み合わせることが明白な成功を収めたにも拘らず、幾つかの重要な問題が完全に解決されないままとなっている。それらの問題は、組み合わせるべき予測集合の選択に関わるものであり、何らかの形の追加的な正則化（縮小など）が望ましいか、というものである。こうした背景の下、また、単純平均による組み合わせがしばしば良いパフォーマンスを見せることも考慮して、我々は、組み合わせの際にある予測はウエイトをゼロに設定し、残りの予測のウエイトを同一値に向けて縮小する、というLASSOに基づく手順（「部分的に平等主義のLASSO」）を提案する。事後分析が、最適解は非常に単純な形態であることを明らかにした。即ち、予測の圧倒的多数は棄てられるべきであり、残りは平均するべきである。そこから我々は、部分的に平等主義のLASSOの構造と教訓に基づき、部分集合を直接的に平均する手順を提案し、追究する。その手順では、LASSOと異なり調整パラメータの選択が必要ない。興味深いことに、欧州中央銀行の専門家予測調査に応用したところ、我々の手順は単純な平均や中央値予測よりも良い成績を収めた――実際のところ、事後的な最優秀の予測とおおよそ同程度の成績を収めた。

こちらのDieboldのプレゼン資料によると、「部分的に平等主義のLASSO」の2段階バージョンは以下のような形に定式化されるという。

ただ、このパラメータλ₁とλ₂をリアルタイムに推計するのは事実上不可能とのことである。そこで編み出した簡略法が、以下の直接的な平均手法との由。

*1:cf. Lasso (statistics) - Wikipedia。個人的にはこちらの日本語ブログ記事が分かりやすかった。