というNBER論文が上がっている(ungated版)。原題は「Linear Regressions with Combined Data」で、著者はXavier D'Haultfoeuille(CREST-INSEE)、Christophe Gaillac(ジュネーヴ大)、Arnaud Maurel(デューク大)。
以下はその結論部。
We study regression coefficients in a context where the outcome of interest and some of the covariates are observed in two different datasets that cannot be matched. This type of data combination environment arises very frequently in various empirical setups. The usual approach, which consists in imputing the outcome Y or the outside regressors Xo using auxiliary variables Wa, hinges on exclusion restrictions that may not hold in practice. We take a different route and derive sharp bounds on the regression coefficients using only the observed distributions. As they take a simple form, these bounds can be estimated at a low computational cost; we also derive simple and easy-to-compute confidence intervals.
We illustrate our method with two applications. The first studies racial disparities in patent approval, the second the effects of patience and risk-taking on test scores. The first application highlights that in some cases, results based on an imputation approach crucially rely on the underlying exclusion restriction; without it, uncertainty on the true coefficients of interet remains large. The second application shows that our bounds can be informative on the magnitude of the effects, and can also lead to reject the imputation-based approach.
(拙訳)
我々は、研究対象の結果、および共変量の一部が、マッチングできない2つの異なるデータセットで観測される場合の回帰係数を調べた。こうした形のデータの組み合わせの状況は、様々な実証の枠組みにおいて非常に頻繁に生じる。結果Yもしくは外部説明変数Xoを補助変数Waを用いて代入するという通常の手法は、実際には成立しないかもしれない除外制約に依存している。我々は異なる手法により、観測された分布だけを用いて回帰係数の明確な境界を導出した。単純な形であるため、その境界は低い計算コストで推計できる。我々はまた、単純で計算が容易な信頼区間も導出した。
我々は2つの応用例で我々の手法を説明した。最初の研究は特許認可の人種間の差であり、二番目の研究は試験の得点における忍耐とリスクテイキングの効果である。最初の応用例では、一部のケースにおいて代入法に基づく結果は背後にある除外制約に大きく依存しており、それ抜きでは対象の真の係数に関する不確実性が大きなままであることを明らかにする。二番目の応用例では、我々の境界は効果の大きさについて情報をもたらし、代入法に基づく結果を棄却し得ることを示している。
序文での説明によると、説明変数Xは「外部」説明変数(“outside” regressors)Xoと「共通」説明変数(“common” regressors)Xcから成る。Xoは被説明変数Yが含まれるデータセットとは別のデータセットだけに含まれており、Xcは両データセットに含まれている。また、補助変数Waは、研究者は回帰式に含めようと思っていないが、やはり両データセットに含まれている。こうした補助変数を実証研究者が利用できる場合は良くある。共通変数が研究対象であるXoの代理変数となっていて、いわゆる「悪しきコントロール変数」ならば、その変数についてはコントロールせずにYのXoへの回帰に専念するのが良いことになる。著者たちは、回帰に含むかもしれないし含まないかもしれない共通変数を W = (X′c , W′a)′と表記している。
こうした場合、研究者は通常、2サンプル2段階最小二乗法(two-sample two-stage least squares=TSTSLS)を用いる。即ち、まず、「Xoデータセット」においてXoをWaで予測し、次いでその予測を「Yデータセット」において使用する。だが、TSTSLSによる代入では、YのXとWaへの回帰という実現できない回帰においてWaの係数がゼロであることを要求しており、その除外制約の不成立に対して敏感である。今回の研究では、そうした除外制約抜きの回帰係数の識別・推計・推定を目指したとの由。