操作変数法で「1.96」信頼区間を使えない場合にどうすべきか

というNBER論文が上がっている。原題は「What to do when you can't use '1.96' Confidence Intervals for IV」で、著者はDavid S. Lee(プリンストン大)、Justin McCrary(コロンビア大)、Marcelo J. Moreira(FGV)、Jack Porter(ウィスコンシン大学マディソン校)、Luther Yap(プリンストン大)。
以下はその要旨。

To address the well-established large-sample invalidity of the +/-1.96 critical values for the t-ratio in the single variable just-identified IV model, applied research typically qualifies the inference based on the first-stage-F (Staiger and Stock (1997) and Stock and Yogo (2005)). We fully extend this F-based approach to its logical conclusion by presenting new critical values for the t-ratio to additionally accommodate values of F that do not meet existing thresholds needed for validity. These new t-ratio critical values simultaneously fix the main problem of over-rejection (invalidity) and the under-appreciated possibility of under-rejection (conservativeness) that can occur when relying solely on the usual 1.96 critical value. We show that the corresponding new confidence intervals are generally expected to be substantially shorter than competing “robust to weak instrument” intervals, including those from the recommended benchmark of Anderson and Rubin (1949) (AR). In a sample of 89 specifications from 10 recent empirical studies drawn from five general interest journals, the new “VtF” intervals are shorter than AR intervals 100 percent of the time, and even more likely to produce statistically significant results than the usual +/-1.96 procedure.
(拙訳)
単一変数の丁度識別の操作変数モデルのt値について確立されている大サンプルでの+/-1.96の棄却限界値の無効性に対処するために、応用研究は通常、第一段階のF値に基づく推定を適正なものとしている(スタイガー=ストック(1997)およびストック=ヨゴ(2005))。我々はこのF値に基づく手法をその論理的な結論に至るまで完全に拡張し、有効性において要求される既存の閾値に満たないF値を追加的に許容するようなt値の新たな棄却限界値を提示する。この新たなt値の棄却限界値はまた、過剰棄却(無効性)、および、可能性が過小評価されている過小棄却(保守性)という、通常の1.96の棄却限界値だけに頼る場合に起き得る主要な問題を解消する。それに対応する新たな信頼区間は一般に、ベンチマークとして推奨されるアンダーソン=ルービン(1949)(AR)などの競合する「弱い操作に対し頑健な」区間よりもかなり短いことを我々は示す。対象が一般性を持つ5つの学術誌から引かれた最近の10の実証研究で特定された89のサンプルにおいて、新たな”VtF"区間はARよりも100%の回数で短く、通常の+/-1.96手順よりも統計的に有意な結果をもたらす可能性がさらに高い。

以前に紹介したYapを除く同じ著者たちの論文ではtFという検定統計量を導入していたが、著者の一人(David S. Lee)がHPに掲載した補助資料におけるFAQの第一問では、「But is VtF's improvement over tF noticeable?」という設問に対し、「Yes. As we show in Lee et. al. (2023) VtF confidence intervals are substantially shorter than tF confidence intervals. We illustrate this using a sample of published studies from prominent general interest journals. In our sample, about 80 percent of the time, tF intervals are at least 30 percent longer. Furthermore, in this sample of studies, VtF inference leads to substantially more frequent statistically significant results, compared to tF inference.」と述べている。