ドイツ人が真珠湾を爆撃した時

ここで紹介した2010年のバーナンキ宛書簡の署名者の一人であるAQRキャピタルのCliff Asness――アルファベット順なので筆頭署名者になっている――が、クルーグマンらの批判に対し、ドイツ人が真珠湾を爆撃した時のように*1まだ決着は付いちゃいねえ、と猛然と反論した。データによって間違いが明らかになったモデルに執着するAsnessの心理を不思議がったデロングのエントリをMark Thomaが引用し、以下のように書いている

There's a version of this in econometrics, i.e. you know the model is correct, you are just having trouble finding evidence for it. It goes as follows. You are testing a theory you came up with, but the data are uncooperative and say you are wrong. But instead of accepting that, you tell yourself "My theory is right, I just haven't found the right econometric specification yet. I need to add variables, remove variables, take a log, add an interaction, square a term, do a different correction for misspecification, try a different sample period, etc., etc., etc." Then, after finally digging out that one specification of the econometric model that confirms your hypothesis, you declare victory, write it up, and send it off (somehow never mentioning the intense specification mining that produced the result).
Too much econometric work proceeds along these lines. Not quite this blatantly, but that is, in effect, what happens in too many cases. I think it is often best to think of econometric results as the best case the researcher could make for a particular theory rather than a true test of the model.
(拙訳)
この話の計量経済学版というものもある。それは、自分のモデルは正しいことがわかっているが、証拠が見つからないだけなんだ、というものだ。以下のような形で話は進む。思いついた理論を検証している際に、データは思い通りの結果を出さず、その理論は間違っている、という結果を出す。しかしそれを受け入れる代わりに、「私の理論は正しい、ただ、まだ正しい計量経済的な仕様を見つけていないだけなんだ。変数を足したり引いたり、対数変換したり、交差項を足したり、項を二乗したり、仕様の誤りに関して違う修正を施したり、違うサンプル期間を試したり、等々をしなければならないんだ」と自分に言い聞かせる。そして、漸く仮説を肯うような計量経済モデルの仕様を一つ見つけ出すと、勝利宣言を行い、論文を書き、提出する(その結果を生み出した必死の仕様マイニングにはなぜか決して触れない)。
あまりにも多くの計量経済学の研究がこうした形で進められている。これほどあからさまではないにせよ、多くのケースで事実上こうしたことが行われている。計量経済学的な結果は、多くの場合、モデルの真の検証結果というよりは、ある理論について研究者が出せる最善の結果と考えるべきだと私は思う。


これを受けてスティーブ・ワルドマンが以下のように書いている

The first implication of this practice is common knowledge: "statistical significance" never means what it claims to mean. When an effect is claimed to be statistically significant — p < 0.05 — that does not in fact mean that there is only a 1 in 20 chance that the effect would be observed by chance. That inference would be valid only if the researcher had estimated a unique, correctly specified model. If you are trying out tens or hundreds of models (which is not far-fetched, given the combinatorics that apply with even a few candidate variables), even if your data is pure noise then you are likely to generate statistically significant results. Statistical significance is a conventionally agreed low bar. If you can't overcome even that after all your exploring, you don't have much of a case. But a determined researcher need rarely be deterred.
(拙訳)
こうした慣行からまず導かれる話は、「統計的有意性」はその言葉の意図するところを意味しない、という周知の事実だ。ある効果がp値が0.05以下なので統計的に有意だとされた時、そうした効果がたまたま観測される確率が20回に1回しかないということを実際に意味するわけではない。そうした推論は、研究者が唯一正しい仕様のモデルを推計した場合にのみ成り立つ。もし何十ないし何百というモデルを試しているならば(変数候補が数個しかない場合でも発生する組み合わせの数から考えると、それは決して突飛な数字ではない)、仮にデータが完全なノイズだったとしても、統計的に有意な結果を得る可能性は高い。統計的有意性というのは慣習的に合意が取れた低いハードルに過ぎない。もし探究の結果それさえも超えられないのであれば、主張が正しいという望みは乏しい。しかし確信を持った研究者が怯むことはまずない。


この問題についてワルドマンが解決策として提案するのは、研究者が事後に分析データを公開するだけでなく、研究そのものをパブリックドメインで進めるような仕組みの開発である。

*1:このフレーズの出所は、下記の映画の中のAsnessがリンクしたこのシーン