期間データあれこれ

ミネソタ大応用経済学部准教授のMarc Bellemareがブログで、自分の共著論文を題材に、被説明変数が期間である場合の回帰分析について以下のように書いている(H/T Economist's View)。

The problem with duration data is that they do not look like the continuous outcome variable ranging from minus to plus infinity (ideally normally distributed) found in most introductory textbooks. In the unemployment spell example, we typically know when someone loses their job, and we know when they find another one. Sometimes, however, the duration is censored; that is, we know when someone loses their job, but they remain unemployed when we record the data.
...
The most basic type of duration analysis is entirely nonparametric, and it is referred to as the Kaplan-Meier estimator. More than an “estimator,” it really is a graph which plots length of time on the x-axis and the proportion of the sample that remains in a given state on the y-axis. Predictably, a Kaplan-Meier plot looks like a descending staircase.
(拙訳)
期間データの問題は、大半の入門教科書にあるようなマイナス無限大からプラス無限大に亘っている(理想的に正規分布している)連続的な結果変数には似ていない、という点にある。失業期間の例では、通常我々は、誰かが職を失った時にそのことは把握できるし、その人が別の職を見つけた時にも把握できる。しかし、その期間は途中で切れている場合がある。即ち、誰かが職を失った時にそのことを把握するものの、データ記録時点でその人が依然として失業中の場合がある。
・・・
期間分析の最も基本的なものは、完全にノンパラメトリックであり、カプラン・マイヤー推計量と呼ばれる。それは実際には単なる「推計量」ではなく、横軸に時間の長さ、縦軸にある状態に留まっているサンプルの割合を描いたグラフである。予想されるように、カプラン・マイヤー図は、降りていく階段のような形をしている。

Obviously, this fails to account for any confounding factor. For that, you need specific estimators. The two we use in Bellemare and Novak are the Cox proportional hazards model and the survival-time regression. ...
Now, the really cool thing about using these estimators along with the usual linear regression for robustness is this: Whereas the linear regression will tell you the effect of an increase of by one unit on the duration of interest for the average observation, both the Cox proportional hazards and survival-time regressions will tell you how much more likely the average observation is to exit the condition you are studying in response to an increase of by one unit.
(拙訳)
明らかに、これでは交絡要因を全く説明できない。その点に関しては、特定の推計量が必要となる。ベルマール=ノヴァク論文で使った2つの推計量は、コックス比例ハザードモデルと生存時間回帰であった。・・・
さて、頑健性のために通常の線形回帰のほかにこれらの推計量を使うのがとても良いのは、次の点である。線形回帰は、平均的な観測値について、一単位増やすことによって研究対象の期間が受ける影響を教えてくれる。一方、コックス比例ハザードと生存時間回帰はいずれも、平均的な観測値について、一単位増やすことに反応して研究対象の状況を抜け出す可能性がどれだけ高まるか、を教えてくれる。