研究者の自由度と差の差推定の信頼性:コロナ禍対策の評価による実証研究

というNBER論文が上がっている。原題は「Researchers' Degrees-of-Flexibility and the Credibility of Difference-in-Differences Estimates: Evidence From the Pandemic Policy Evaluations」で、著者はJoakim A. Weill(UCデービス)、Matthieu Stigler(スタンフォード大)、Olivier Deschenes(UCサンタバーバラ)、Michael R. Springborn(UCデービス)。
以下はその要旨。

The COVID-19 pandemic brought unprecedented policy responses and a large literature evaluating their impacts. This paper re-examines this literature and investigates the role of researchers' degrees-of-flexibility on the estimated effects of mobility-reducing policies on social-distancing behavior. We find that two-way fixed effects estimates are not robust to minor changes in usually-unexplored dimensions of the degree-of-flexibility space. While standard robustness tests based on the sequential addition of covariates are very stable, small changes in the outcome variable and its transformation lead to large and sometimes contradictory changes in the estimates, where the same policy can be found to significantly increase or decrease mobility. Yet, due to the large number of degrees-of-flexibility, one can focus on a set of results that appears stable, while ignoring problematic ones. We show that recently developed heterogeneity-robust difference-in-differences estimators only partially mitigate these issues, and discuss how a strategy of identifying the point at which a sequence of ever more-stringent robustness tests eventually fail could increase the credibility of policy evaluations.
(拙訳)
コロナ禍は、前例のない政策対応と、その効果を評価する多数の研究をもたらした。本稿はそうした研究を調査し、社会的距離をとる行動に人流抑制策が与えた効果の推計において、研究者が推計の仕様について持つ自由度の果たす役割を調べる。我々は二方向固定効果推計が、自由度の余地において通常は探究されることのない側面における小さな変更に対し頑健ではないことを見い出した。共変量の逐次的な追加に基づく通常の頑健性検査は非常に安定的である一方、人流を計測する結果変数とその変換の小さな変化は、推計値に大きな、時には同じ政策が有意に人流を増加もしくは減少させるという矛盾した変化をもたらした。しかし研究者は、自由度が大きいため、問題のある結果を無視して安定的に見える結果の集合に注力することができる。我々は、最近開発された不均一性に頑健な差の差推定もこの問題を部分的にしか解消しないことを示し、厳格性を増していく一連の頑健性検査がどこで最終的に破綻するかを特定するという戦略が如何に政策評価の信頼性を増すか、について論じる。