クラスターすべき時、すべきでない時

Metrics MondayでMarc F. Bellemareが、「When Should You Adjust Standard Errors for Clustering?」という論文(著者はAlberto Abadie(MIT)、Susan Athey(スタンフォード大)、Guido W. Imbens(同)、Jeffrey Wooldridge(ミシガン州立大))を取り上げている
ここで言うクラスタリングとは、BellemareがリンクしているDavid McKenzieがリンクしているクリス・ブラットマンの説明によれば以下の通り。

I guess I should explain what clustering means (though if you don’t know already there’s a good chance you don’t care and it’s not relevant to your life). Imagine people in a village who experience a change in rainfall or the national price of the crop they grow. If you want to know how employment or violence or something responds to that shock, you have to account for the fact that people in the same village are subject to the same unobserved forces of all varieties. If you don’t, your regression will tend to overstate the precision of any link between the rainfall change and employment.
(拙訳)
クラスタリングがどういう意味かを説明しておいた方が良いだろう(ただ、あなたがまだ知らないならば、あなたが気にするような話ではなく、あなたの人生と無関係な話である、という可能性が大いにある)。降雨もしくは育てている農作物の全国価格が変化するのを経験した村の人々を考えてみよう。雇用や暴力などがそのショックにどう反応するかを知りたければ、同じ村の人々がありとあらゆる観測されない同じ要因に晒されていたことを考慮する必要がある。そうしないと、回した回帰において降雨の変化と雇用の結び付きの正確性を過大評価する傾向が生じてしまう。


以下はBellemareのエントリからの引用。

Abadie et al. recast clustering as a design problem. In some cases, it is a sampling design issue. In others, it is an experimental design issue:
1.Clustering is a sampling issue if sampling follows a two-stage strategy where clusters (e.g., villages) are first sampled at random and then observations within clusters (e.g., households) are then sampled at random. In this case, there are some (possibly many) clusters in the population which aren’t included in the sample. Here, clustering is justified on the basis of the fact that some clusters in the population aren’t included in the sample.
2.Clustering is an experimental design issue if the assignment to treatment is correlated within clusters, with the most obvious case being block randomization, when all the households (units) in a village (cluster) are either assigned to treatment or not.
So when is clustering not necessary? When there is no clustering in the sampling (i.e., when you randomly select units from the whole population, without first randomly selecting clusters from which you will randomly select units) and there is no clustering in the assignment of treatment, or when there is no heterogeneity in the treatment effect and there is no clustering in the assignment of treatment. Or, to paraphrase what Abadie et al. state in their conclusion: if the sampling process is not clustered and the treatment assignment is not clustered, you should not cluster standard errors even if clustering changes your standard errors.
(拙訳)
アバディらは、クラスタリングを設計の問題として捉え直した。サンプリング設計の問題、もしくは実験デザインの問題である。

  1. まずクラスター(例:村)がランダムにサンプリングされ、それからクラスター内の観測値(例:家計)がランダムにサンプリングされるという2段階戦略によってサンプリングがなされる時には、クラスタリングはサンプリングの問題となる。この場合、母集団には、サンプルに含まれていないクラスターが幾つか(おそらくは多数)存在する。その時、母集団の中にサンプルに含まれていないクラスターが存在するという事実によってクラスタリングは正当化される。
  2. 処置群への割り当てがクラスター内で相関している時、クラスタリングは実験デザインの問題となる。最も明白なケースは、ある村(クラスター)内のすべての家計(ユニット)が処置群に割り当てられる、もしくは割り当てられない、というブロックランダム化である。

では、クラスタリングが必要ないのはどんな時か? サンプリングにクラスタリングが存在せず(即ち、最初にクラスターをランダムに選択し、そこからユニットをランダムに選択するのではなく、母集団全体からユニットをランダムに選択した時)、かつ、処置群への割り当てにクラスタリングが存在しない時である。もしくは、処置効果に不均一性が存在せず、かつ、処置群への割り当てにクラスタリングが存在しない時である。アバディらが結論で述べたことを言い換えるならば、サンプリング過程がクラスター化されておらず、処置群への割り当てがクラスター化されていないならば、たとえ標準誤差がクラスタリングによって変わるとしても、標準誤差をクラスター化してはならない。

The article also revisits the question of whether clustering is really necessary with fixed effects. Indeed, one comment I hear frequently from students (and even from some colleagues) is that with fixed effects, you shouldn’t cluster standard errors at the level of the fixed effects. So for example, with state fixed effects, you shouldn’t have to cluster standard errors at the state level. Abadie et al. show that this is mistaken. Specifically, heterogeneity of the treatment effect (and really, when is a treatment effect not heterogeneous?) makes clustering necessary.
(拙訳)
論文はまた、固定効果についてクラスタリングが本当に必要か、という問題も再訪している。実際のところ、学生から(および幾人かの同僚からも)良く聞くコメントの一つは、固定効果のレベルでは標準誤差をクラスター化してはならない、というものである。従って例えば州の固定効果がある場合、州レベルで標準誤差をクラスター化してはならない、というわけだ。アバディらはこれが間違いであることを示した。具体的には、処置効果の不均一性によって(実際のところ、処置効果が不均一でない時があるかい?)、クラスタリングは必要となる。