続・機械学習の時代の理論と測定

前回エントリで紹介したLewbel=Dieboldと真逆の主張をノアピニオン氏が紹介している

...I stumbled on this very interesting essay from 2001, by statistician Leo Breiman. Breiman basically says that statisticians should do less modeling and more machine learning.
...
Statisticians, on the other hand, debate whether you should actually have a model at all! The simplistic reduced-form models that structural econometricians turn up their noses at -- linear regression, logit models, etc. -- are the exact things Breiman criticizes for being too theoretical!
...
So if even OLS and logit are too theoretical and restrictive for Breiman's tastes, what does he want to do instead? Breiman wants to toss out the idea of a model entirely. Instead of making any assumption about the DGP, he wants to use an algorithm - a set of procedural steps to make predictions from data. As discussant Brad Efron puts it in his comment, Breiman wants "a black box with lots of knobs to twiddle."
Breiman has one simple, powerful justification for preferring black boxes to formal DGP modeling: it works. ...As of 2017, machine learning - in particular, deep learning - has accomplished such magical feats that no one now questions the notion that these algorithmic techniques really do have some secret sauce.
...
But deep learning, the technique that's blowing everything else away in a huge array of applications, tends to be the least interpretable of all - the blackest of all black boxes.
(拙訳)
・・・私は統計学者レオ・ブレイマン*1このとても興味深い2001年のエッセイに行き当たった。ブレイマンは基本的に、統計学者はモデル化をやめてもっと機械学習に取り組むべし、と言っている。
・・・
計量経済学者がモデル化の手法について議論している]一方で、統計学者は、そもそもモデルを持つべきかどうかを議論している! 線形回帰やロジットモデルといった計量経済学者が鼻であしらうようなごく単純な誘導型モデルについてブライマンは、理論的過ぎるとして批判の標的にしているのである!
・・・
通常回帰とロジットでさえブレイマンにとって過度に理論的で制約的だと言うならば、代わりに何をすべきと彼は言っているのであろうか? ブレイマンはモデルという考えを完全に捨て去るべきだと言っている。データ生成過程について何かしらの仮定を置く代わりに、データから予測するための一連の手続きのステップであるアルゴリズムを使うべき、とのことである。討論者のブラッド・エフロンがコメントで述べたように、ブレイマンは「弄れるたくさんのつまみの付いたブラックボックス」を欲しているのである。
レイマンには、データ生成過程の正式なモデル化よりもブラックボックスを好むことを正当化する、一つの単純で強力な理由がある。それは上手く行くのだ。・・・2017年現在、機械学習、なかんずく深層学習は魔法のような快挙を成し遂げたため、これらアルゴリズム技法には何か秘密のソースが実際にある、という考えを疑うものは今や誰もいない。
・・・
しかし、極めて多くの応用分野で他のすべての手法を蹴散らしている深層学習は、最も解釈し難い技法、ブラックボックス中のブラックボックスとなりがちである。


レイマンのこの見解については統計学者の中でも意見が分かれているようで、ノアピニオン氏はリンク先のpdfのコメント(討論)から、エフロンの反論のほか、モデルの必要性を訴えたコックスの反論、および、確かに単純なモデルが必要な場面もある、と認めたブレイマンのリジョインダーを紹介している。

ノアピニオン氏はこの統計学者同士の意見の対立を、以前のエントリで彼が紹介した計量経済学者同士の議論になぞらえている(cf. ここ)。

In empirical economics, the big debate is between two different types of model-makers. Structural modelers want to use models that come from economic theory (constrained optimization of economic agents, production functions, and all that), while reduced-form modelers just want to use simple stuff like linear regression (and rely on careful research design to make those simple models appropriate).
I'm pretty sure I know who's right in this debate: both. If you have a really solid, reliable theory that has proven itself in lots of cases so you can be confident it's really structural instead of some made-up B.S., then you're golden. Use that. But if economists are still trying to figure out which theory applies in a certain situation (and let's face it, this is usually the case), reduced-form stuff can both A) help identify the right theory and B) help make decently good policy in the meantime.
(拙訳)
実証経済学では、2種類のモデル屋の間で大いなる議論が交わされている。構造モデル屋は経済理論(経済主体の制約された最適化、生産関数、等々)に基づくモデルを使いたがっている。一方、誘導型モデル屋は、線形回帰などの単純なものだけを使いたがっている(そして、そうした単純なモデルを適切なものとするために、注意深い研究設計に頼ろうと考えている)。
私はこの議論でどちらが正しいかが分かっていると自信を持って言える。両者とも正しいのだ。多くのケースで信頼性を証明した本当に堅固で頼れる理論があるので、適当に作り上げた代物などよりも構造型の方が間違いなく良いと確信しているならば、結構なことである。それを使えば良い。しかし、ある状況でどの理論が成り立つか経済学者が未だに首を捻っているならば(このことは通常ケースだと認めざるを得ないだろう)、誘導型はA)正しい理論を識別するのに役立つとともに、B)取りあえずそこそこ良い政策を策定するのに役立つ。