信頼性革命はどの程度信頼できるのだろうか?

というNBER論文が上がっている(H/T タイラー・コーエン)。原題は「How Credible is the Credibility Revolution?」で、著者はKevin Lang(ボストン大)。
以下は本文からの引用。

Suppose you test a null hypothesis, and the t turns out to be 1.96. Assume the model is correctly specified and the t − statistic is really distributed as t. What is the probability that the null hypothesis is actually true?
...
...if we don’t stop to think, most of us trained in the frequentist tradition will respond “5 percent.” As Colquhoun (2014) points out, this is obviously incorrect. The probability that the null is false depends on the likelihood of getting a t of 1.96 if the null is false and, thus, indirectly, on the power of the test. The probability also depends on the ex-ante probability that the null was true, your prior if you are a Bayesian. If we are almost sure the null hypothesis is false, we should continue believing that the null is false even when we fail to reject. This is the message of DeLong and Lang (1992), who find that at least two-thirds of published unrejected nulls are false and cannot reject that 100% of the unrejected nulls are false when the unrejected hypothesis is central to the paper’s message. They conclude that journals publish unrejected nulls only when failing to reject them is very surprising.
...
My approach addresses the counterpart to the question in DeLong and Lang (1992): what proportion of rejected nulls are true?
I limit the sample to articles that measure causal effects using techniques associated with the credibility revolution (instrumental variables, randomized controlled trials, difference-in-differences, matching). This is not intended to disparage the contribution of the credibility revolution. Although I have been critical of some of the abuses of the techniques it promotes (Kahn-Lang and Lang 2020), these techniques have greatly influenced the profession, including me, in generally positive ways. However, studies drawing on credibility revolution techniques often claim “convincing evidence” of a causal effect such that we may draw a strong policy conclusion from a single study. My goal is to help us think more clearly about hypothesis testing in policy research. I focus on credibility revolution techniques because, as I have noted elsewhere (Lang and Palacios 2018), structural labor economists rarely put standard errors on their policy estimates. Moreover, most structural papers do not test a clearly stated hypothesis.
Using the model, I ask what proportion of rejected nulls are, in fact, true. Under my preferred specification, I estimate that 41% of published rejected nulls are false rejections. Almost two-thirds of narrow rejections, those with t just above 1.96, are false rejections. To get to the conventional .05 level requires a |t| greater than 5.48. Only 18% of rejected nulls, including those with |t| > 10, satisfy this requirement. In a policy context, unless the level of statistical significance dramatically exceeds current conventional levels, this will generally require us to be cautious about applying the findings of a single study, even one conducted honestly and carefully. Of course, in a decision-theoretic context, how certain we need to be depends on the costs of type 1 and type 2 errors.
(拙訳)
帰無仮説を検定し、t値が1.96になったとしよう。モデルの仕様が正しく、t統計量が実際にt分布していると仮定する。帰無仮説が実際に真である確率は幾らだろうか?
・・・
・・・良く考えないと、頻度主義の考え方で訓練された人の大半は「5%」と答えるだろう。コフーン(2014*1)が指摘したように、これは明らかな間違いである。帰無仮説が偽である確率は帰無仮説が偽である時に1.96のtを得る確率に依存し、従って、検定力に間接的に依存する。その確率はまた、帰無仮説が真である事前確率――ベイジアンならば事前分布――にも依存する*2帰無仮説が偽であることにほぼ確信を持っているならば、棄却できなかった場合も帰無仮説が偽であると信じ続けるべきである。これはデロング=ラング(1992*3)のメッセージであるが、そこでは出版された棄却されなかった帰無仮説の少なくとも2/3が偽であり、棄却されなかった仮説が論文の中心的なメッセージであった場合に棄却されなかった帰無仮説の100%が偽であるということが棄却できないことを見い出した。彼らは、学術誌が棄却されなかった帰無仮説を掲載するのは、棄却されないことが非常に驚くべき場合に限られる、と結論している。
・・・
私の手法は、デロング=ラング(1992)の対をなす問題に取り組んでいる。棄却された帰無仮説が真である割合は幾らだろうか?
私は、信頼性革命*4に関連する技法(操作変数、ランダム化比較試験、差の差、マッチング)を用いて因果効果を測定した論文にサンプルを絞った。これは信頼性革命の貢献を貶めようという意図によるものではない。同革命が推進する技法の誤用の幾つかを私は批判してきたものの(カーン-ラング=カーン、2020*5)、それらの技法は、私を含めた学界に、一般にプラスの形で大きな影響を与えた。しかし信頼性革命の技法に依拠する研究は、単一の研究から強力な政策的結論を導き出せるほどの因果効果の「説得力のある証拠」を主張することが多い。私の目的は、政策研究における仮説検定についてもっと明確に考えることを支援することにある。私が信頼性革命に焦点を当てたのは、別のところで記したように(ラング=パラシオス、2018*6)、構造モデルの労働経済学者は政策推計に当たって標準誤差を滅多に記載しないためである。しかも、構造モデル論文の大半は明確に記述された仮説を検定しない。
私はモデルを用いて、棄却された帰無仮説が実際には真であった割合を求めた。私の選好した仕様では、掲載された棄却された帰無仮説の41%が誤った棄却と推計された。tが1.96のすぐ上でぎりぎりで棄却されたもののうちほぼ3分の2が誤った棄却だった。通常の.05水準を得るためには|t|は5.48より大きくある必要があった。|t|が10より大きかったものも含め、棄却された帰無仮説のうち18%だけがこの要求を満たした。このことは一般に、政策の文脈で言えば、統計的有意性が現在の通常水準を劇的に超えない限り、誠実かつ注意深く実施された研究であったとしても、単一の研究の発見を応用することに我々は慎重であらねばならないことを要求している。もちろん、意思決定の文脈では、我々がどの程度確信を持つべきかは第一種過誤と第二種過誤のコストに依存する。

新発見の統計的有意性のp値の閾値は5%から0.5%に下げよ - himaginary’s diaryでは有意水準を5%から0.5%に下げる提言を紹介したが、|t|の5.48や10を基準とするのであれば、0.5%よりも遥かに厳しい基準を要求することになる。