手法が問題:経済学の因果分析におけるpハッキングと掲載バイアス

というAER掲載予定論文をタイラー・コーエンが紹介している。論文の原題は「Methods Matter: P-Hacking and Publication Bias in Causal Analysis in Economics」で、著者はAbel Brodeur、Nikolai Cook、Anthony Heyes(いずれもオタワ大)。
以下はその要旨。

The credibility revolution in economics has promoted causal identification using randomized control trials (RCT), difference-in-differences (DID), instrumental variables (IV) and regression discontinuity design (RDD). Applying multiple approaches to over 21,000 hypothesis tests published in 25 leading economics journals we find that the extent of p-hacking and publication bias varies greatly by method. IV (and to a lesser extent DID) are particularly problematic. We find no evidence that: (1) Papers published in the ‘Top 5’ journals are different to others; (2) The journal ‘revise and resubmit’ process mitigates the problem; (3) Things are improving through time.
(拙訳)
経済学における信頼性革命は、ランダム化比較試験(RCT)、差の差(DID)、操作変数(IV)、および回帰不連続デザイン(RDD)を用いた因果関係の識別を促した。25の主要な経済学術誌に掲載された21,000以上の仮説検定に複数の手法を適用したところ、pハッキングと掲載バイアスの程度は手法によって大きく違うことを我々は見い出した。IV(そしてIVほどではないがDID)は特に問題含みである。我々は以下の件について何ら証拠を見い出さなかった:(1)「トップ5」誌に掲載された論文は他とは違う;(2)学術誌の「修正して再投稿」という過程によって問題が緩和される;(3)時間と共に事態は改善している。


コーエンはさらに、この論文を巡る「場外戦」を紹介している。ESADEビジネススクールUri Simonsohnが、自分がこの論文の査読者の一人であることを明らかにした上で、こちらのブログで論文に疑義を呈し、それに著者たちが反論したのである。コーエン自身は、まだどちらが正しいか判断が付かない、という姿勢を示している。

Simonsohnの疑義は、pハッキングにはスローとファストの2種類がある、という認識に基づいている。スローのpハッキングとは、いろいろ手を変え品を変えてもp値の低下は緩慢で、何とか頑張ってやっとこさ0.05を下回る、というものである。ファストのpハッキングとは、ちょっとした修正でp値が大きく下がるものを指している。Simonsohnによれば、観測値による研究はスロー、実験による研究はファストの傾向があるという(ただしそれはまだ直観段階で確かな話ではない、と断っている)。このようにpハッキングも一筋縄ではいかないので、単に、0.05を境にp値の分布に不自然な点が見られる、という分析ではpハッキングは検知できない、というのがSimonsohnの指摘である。
Simonsohnはまた、論文ではp値の本来の分布として単峰性を仮定し、複数の山がある分布は不自然だ、としているが、本来の分布が単峰である保証はない、という指摘も行っている。

これに対し著者たちは、論文ではIV対DIDなど非実験系の手法における違いを主要な発見として取り上げているが、それにはスローvsファストは関係ないのでは、と反論すると共に、RCTはファストというSimonsohnの見立てにも異議を唱えている。また、自分たちは0.05の直下にp値が蝟集しているかどうか以外にも様々な分析を行って結論を導き出している、とも述べている。さらに単峰性については、通常想定される分布では満たされるのでは、と反論している。