スター・ウォーズ/ピーチ姫の逆襲

という論文をタイラー・コーエンが紹介していた*1


以下はその要旨。

Journals favor rejections of the null hypothesis. This selection upon results may distort the behavior of researchers. Using 50,000 tests published between 2005 and 2011 in the AER, JPE and QJE, we identify a residual in the distribution of tests that cannot be explained by selection. The distribution of p-values exhibits a camel shape with abundant p-values above .25, a valley between .25 and .10 and a bump slightly under .05. Missing tests are those which would have been accepted but close to being rejected (p-values between .25 and .10). We show that this pattern corresponds to a shift in the distribution of p-values: between 10% and 20% of marginally rejected tests are misallocated. Our interpretation is that researchers might be tempted to inflate the value of their tests by choosing the specification that provides the highest statistics. Note that Inflation is larger in articles where stars are used in order to highlight statistical significance and lower in articles with theoretical models.
(拙訳)
学術誌は帰無仮説の棄却を好む。実証結果に関するこうした選択は、研究者の行動を歪める可能性がある。2005年から2011年に掛けてAER、JPE、QJEに掲載された50,000の実証結果を用い、我々は、実証結果の分布において選択では説明できない残差を特定した。p値の分布は、.25より上が厚く、.25と.10の間は谷間になっており、.05のすぐ下でこぶがある、というラクダのこぶ型の形状を示す。欠落している実証結果は、棄却されるのに近いところに位置しつつ採択されるべきものである(p値が.25と.10の間)。我々は、こうしたパターンがp値の分布のシフトに対応することを示す。即ち、辛うじて棄却された実証結果のうち1割から2割は、誤った場所に位置している。我々の解釈は、最も高い統計量を弾き出す設定を選択することにより検定値を膨らます誘惑に研究者が駆られているのだろう、ということである。そうした膨らましは、統計的有意性を強調するのに星を用いる論文で大きくなり、理論的モデルを扱う論文では小さくなるという特徴が見られる。


コーエンはまた、政治科学の論文について同様の結果を報告した6年前のEconomist's Viewエントリにリンクしている。

*1:原題の「Star Wars: The Empirics Strike Back」でEmpiricsとEmpireを掛けているのを、p値とピーチに掛けて訳してみました。滑った?