というNBER論文が先月上がっている(昨年10月時点のWP)。原題は「Valid t-ratio Inference for IV」で、著者はDavid S. Lee(プリンストン大)、Justin McCrary(コロンビア大)、Marcelo J. Moreira(FGV)、Jack Porter(ウィスコンシン大学マディソン校)。
以下はその要旨。
In the single-IV model, researchers commonly rely on t-ratio-based inference, even though the literature has quantified its potentially severe large-sample distortions. Building on the approach for correcting inference of Stock and Yogo (2005), we introduce the tF critical value function, leading to a minimized standard error adjustment factor that is a smooth function of the first-stage F-statistic. Applying the correction to a sample of 61 AER papers leads to a 25 percent increase in standard errors, on average. tF confidence intervals have shorter expected length than those of Anderson and Rubin (1949), whenever both are bounded intervals.
(拙訳)
単一の操作変数モデルにおいて研究者たちは、深刻なものとなり得る大サンプルでの歪みがこれまでの研究で定量化されているにもかかわらず、t値に基づく推論に頼るのが普通である。ストック=ヨゴ(2005*1)の推計修正法に基づき我々は、tF棄却限界値関数を導入する。その関数では、第一段階のF値の平滑な関数である最小化された標準誤差調整係数が得られる。61本のAER論文にその修正を適用すると、標準誤差は平均して25%増加する。共に有界区間である時、tF信頼区間の幅の期待値はアンダーソン=ルービン(1949*2)よりも小さい。
著者の一人(David S. Lee)がHPに補助資料を掲載しているが、そのFAQの第一問と第二問からストック=ヨゴが発見した通常の推計の問題点を引用すると以下の通り。
One of the specific findings of Stock and Yogo (2005) (see their Figure 5.2) is the following: if one uses ±1.96 critical values, and if one is willing to assert a particular minimum value (specifically, 6.88) for E[F] (the expected value of the first stage F statistic) then the significance level of the test is 10 percent (and the corresponding intervals using ±1.96*(std.error) are 90 percent confidence intervals). See Andrews, Stock, and Sun (2019) for a recent comprehensive review and discussion of weak instrument issues.
...
Stock and Yogo’s equations imply that E[F] must be at least 142.6 for a 5 percent test (95% confidence). See the calculation in A.7 in the Online Appendix below.
(拙訳)
ストック=ヨゴ(2005)の明確な発見の一つ(彼らの図5.2参照)は次の通り:もし±1.96の棄却限界値を使い、E[F](第一段階のF値の期待値)について特定の最小値(具体的には6.88)を用いようとするならば、検定の有意水準は10%となる(そして±1.96×標準誤差を用いた対応区間は90%信頼区間となる)。弱い操作変数の問題についての最近の包括的なレビューと議論については、アンドリューズ=ストック=サン(2019*3)参照。
・・・
ストック=ヨゴの方程式は、5%検定(95%信頼区間)のためにはE[F]が少なくとも142.6でなくてはならないことを示している。下記のオンライン付録のA.7の計算を参照。
また、第三問では、弱い操作変数のt値に関するスタイガー=ストック(Staiger and Stock, 1997*4) の漸近分布と、それをシミュレーションで確認した分布が正規分布から離れていることを図で示し、以下のように書いている。
The bottom line is that the usual t-ratio test based on the ±1.96 critical values does not deliver (unqualified) valid inference at the 5 percent level of significance. That usual procedure presumes that the large-sample distribution for the t-ratio is normal in all cases; but it actually departs from normality in a predictable way.
(拙訳)
ポイントは、±1.96の棄却限界値に基づく通常のt値検定は、5%有意水準で(無条件に)有効な推定をもたらさない、ということである。通常の手順はt値の大サンプルの分布がいかなる場合も正規分布であることを仮定しているが、実際には予測可能な形で正規分布から乖離する。
そして第四問では次のように書いている。
- 4. So what can I do if I’d like a 5 percent test (or 95% confidence interval) without assuming anything about E[F] or ρ?
One of the options is to abandon the t-ratio, and use a different statistic. For example, you could use the test of Anderson and Rubin (1949) (AR). The inversion of the AR test can similarly be used to form a valid confidence set of intended confidence level. See Andrews, Stock, and Sun (2019) for a review of weak IV inference approaches.
“Valid t-ratio Inference for IV” provides an alternative: inflate your 2SLS standard errors by an adjustment factor that depends on the observed first-stage F statistic, using Table 3a and 3b in the paper. After adjusting the standard errors in this way, the usual confidence intervals (±1.96 * [tF adjusted std. error]) will have correct confidence level (95 percent). Just like AR, it requires no assumption about E[F] or ρ for validity. Note that the paper also shows that, in expectation, the AR confidence interval will be longer than tF intervals (when both tF and AR produce bounded intervals).
(拙訳)一つの選択肢はt値を放棄して、違う統計量を使うことだ。例えばアンダーソン=ルービン(1949)(AR)を使うことができる。AR検定を転置すれば、同様に、目的とする信頼区間についての有効な信頼集合として用いることができる。弱い操作変数の推定法のレビューについては、アンドリューズ=ストック=サン(2019)参照。
「操作変数法について有効なt値の推計」論文は、別の選択肢を提供する。二段階最小二乗法の誤差を、論文の表3aと3bを用いて、観測された第一段階のF値に依存する調整係数で膨らませるのだ。このように標準誤差を調整すると、通常の信頼区間(±1.96×tF調整された標準誤差)は正しい信頼水準(95%)を有する。この時、ARとまったく同様に、有効性のためのE[F]やρについての前提は必要ない。(tFとARが共に有界区間を導出している場合)ARの信頼区間の幅はtF区間よりも期待値において大きいことも論文では示していることに注意されたい。