積み重ね差の差分析

というNBER論文が上がっている。原題は「Stacked Difference-in-Differences」で、著者はCoady Wing(インディアナ大)、Seth M. Freedman(同)、Alex Hollingsworth(オハイオ州立大)。
以下はその要旨。

This paper introduces the concept of a "trimmed aggregate ATT," which is a weighted average of a set of group-time average treatment effect on the treated (ATT) parameters identified in a staggered adoption difference-in-differences (DID) design. The set of identified group-time ATTs that contribute to the aggregate is trimmed to achieve compositional balance across an event window, ensuring that comparisons of the aggregate parameter over event time reveal dynamic treatment effects and differential pre-trends rather than compositional changes. Taking the trimmed aggregate ATT as a target parameter, we investigate the performance of stacked DID estimators. We show that the most basic stacked estimator does not identify the target aggregate or any other average causal effect because it applies different implicit weights to treatment and control trends. The bias can be eliminated using corrective sample weights. We present a weighted stacked DID estimator, and show that it correctly identifies the target aggregate, providing justification for using the estimator in applied work.
(拙訳)
本稿は、「刈込集計ATT」という概念を導入する。これは、時差を適用した差の差(DID)分析で識別される、群・時間の処置群の平均処置効果(ATT)のパラメータ集合の加重平均である。集計対象となる識別された群・時間のATTの集合は、イベントウインドウを通じた構成バランスを達成するために刈り込まれ、それによってイベント期間を通じた集計パラメータの比較が、構成の変化ではなく動学的な処置効果と処置前トレンドの違いを明らかにすることが保証される。刈込集計ATTを目標パラメータとして我々は、積み重ね差の差推計値のパフォーマンスを調べた。最も基本的な積み重ね推定量は、処置群のトレンドと対照群のトレンドに相異なる暗黙裡のウエートを適用するため、目標の集計値、ないし他の如何なる平均的な因果効果も識別しないことを我々は示す。このバイアスは、修正した標本ウエートを用いることで除去できる。我々は加重積み重ねDID推定量を提示し、それが目標集計量を正しく識別することを示す。これは、その推計量を応用研究に使うことを正当化するものである。

ググって見つけたこちらの日本語資料によると、2方向固定効果やイベントスタディでの差の差分析では、処置効果に不均一性があり、それが処置タイミングと相関していたら、仮に平行トレンドの仮定*1が成立していたとしても、偏りが生じてしまう、とのこと。その解決法として提案されたのがStacked Regression approach(積み重ね回帰手法)とのことだが、それについても実は荷重(ウエート)の修正が必要、というのがこの論文の主旨のようである。

同じくググって見つけた著者の一人(Coady Wing)の2年前のスライド資料では、stacked手法について以下のように説明されている。

What is a stacked DID or stacked event study?

A stacked DID or stacked event study is a way to analyze data from a staggered adoption design.
The idea originally appears in two applied papers:
• Cengiz, Doruk, Arindrajit Dube, Attila Lindner, and Ben Zipperer. "The effect of minimum wages on low-wage jobs." The Quarterly Journal of Economics 134, no. 3 (2019): 1405-1454.
• Deshpande, Manasi, and Yue Li. "Who is screened out? Application costs and the targeting of disability programs." American Economic Journal: Economic Policy 11, no. 4 (2019): 213-48.
The scheme is not perfect. It doesn’t provide the perfect way to “weight and sum” event specific treatment effects.
But it ensures that you don’t have any problematic comparisons and so is robust to the biases those comparisons create
(拙訳)

積み重ねDIDや積み重ねイベントスタディとは何か?

積み重ねDIDや積み重ねイベントスタディは、時差を適用した手法で得られたデータを分析する方法である。
この考えは2つの応用論文に最初に現れた:

  • Cengiz, Doruk, Arindrajit Dube, Attila Lindner, and Ben Zipperer. "The effect of minimum wages on low-wage jobs." The Quarterly Journal of Economics 134, no. 3 (2019): 1405-1454.*2
  • Deshpande, Manasi, and Yue Li. "Who is screened out? Application costs and the targeting of disability programs." American Economic Journal: Economic Policy 11, no. 4 (2019): 213-48.*3

このスキームも完全ではない。イベント固有の処置効果を「加重し合計する」完全な方法を提供するわけではない
しかしこのスキームは、問題のある比較を何も行っていないことを保証し、そのため、そうした比較が生み出す偏りについて頑健である

時差を適用した手法(staggered adoption design)の例としてスライドでは以下を挙げている。

この手法で得られたデータに2方向固定効果の回帰を適用すると、その係数は2x2DID(2群×2期間のDID)の全てのペアの加重平均になっていることがGoodman-Bacon(2021) *4によって示されたという。ただ、そうした奇妙な加重平均になること自体が大きな問題というわけではない、とのことである。大きな問題なのは、既に処置された群を対照群として使うため、処置効果が時間とともに変動すると偏りが生じてしまうこと、との由*5*6
積み重ねDIDはそうした問題を回避する手法なわけであるが、積み重ねたデータセットが独立とは見做せない、という問題がある。というのは、綺麗な対照群として非処置群が全ての副実験で扱われるため、時間軸における副実験の重複が生じてしまうからである。同様に、遅れて処置される群も、初期の処置群に対する対照群として扱われるならば、複数回使われることになる。この問題に対処するため、Wingのスライドでは、ユニット(標本群)レベルのクラスター標準誤差*7を使うことを推奨しているほか、非処置群を分割して重複を避けることも効果があると報告している。
こうした研究の先に、今回の論文で提示された手法が編み出されたようである。

*1:処置が無かった場合の処置群と対照群のトレンドが同じという仮定。

*2:Effect of Minimum Wages on Low-Wage Jobs* | The Quarterly Journal of Economics | Oxford Academic

*3:これ

*4:これ2018年時点のNBERWP

*5:逆に言えば、処置効果が時間を通じて一定ならば、2方向固定効果の回帰分析でも問題はない、とのことである。

*6:処置効果の時間変動としてスライドでは、「浸透効果(Phase in effects)」と「時間軸と処置効果の相互作用(Calendar Period x Treatment Effect Interactions)」を挙げている。前者の例としては、新税に関する知識が普及するのに時間が掛かるため、人々の消費行動や生産行動が変わるのが遅れることや、マリファナを1年で合法化しても販売店が開くのに数年掛かることを挙げている。後者の例としては、失業保険給付の拡充が不況時には労働供給に無視できる効果しか与えないが、好況時には大きな効果を与えることを挙げている。なお、前掲の日本語資料では、規制緩和が効果の高い地域から実施されることを例に挙げている。

*7:cf. Clustered standard errors - Wikipedia