最小の平均二乗誤差を持つ線形推定量は?

Dave Gilesが9/21エントリで以下のようなお題をブログ読者に投げ掛けた。

We know from the Gauss-Markhov Theorem that within the class of linear and unbiased estimators, the OLS estimator is most efficient. Because it is unbiased, it therefore has the smallest possible Mean Squared Error (MSE) within the linear and unbiased class of estimators. However, there are many linear estimators which, although biased, have a smaller MSE than the OLS estimator. You might then think of asking:
“Why don’t I try and find the linear estimator that has the smallest possible MSE?”
(a) Show that attempting to do this yields an “estimator” that can’t actually be used in practice.
(You can do this using the simple linear regression model without an intercept, although the result generalizes to the usual multiple linear regression model.)
(b) Now, for the simple regression model with no intercept,
yi = β xi + εi ; εi ~ i.i.d. [0 , σ2] ,
find the linear estimator, β* , that minimizes the quantity:
h[Var.(β*) / σ2] + (1 - h)[Bias(β*)/ β]2 , for 0 < h < 1.
Is β* a legitimate estimator, in the sense that it can actually be applied in practice?


(拙訳)
線形不偏推定量の中では通常の最小二乗法の推定量が最も効率的であることを、我々はガウス=マルコフ定理から知っている。それは不偏であるため、線形不偏推定量の中で最小二乗誤差(Mean Squared Error=MSE)が能う限り最も小さい。しかし、偏ってはいるものの、通常の最小二乗法の推定量よりも最小二乗誤差が小さい線形推計量も数多く存在する。ということで、「能う限り最も小さい最小二乗誤差を持つ線形推定量をなぜ探さないのか?」という疑問が湧くだろう。


(a)そのような試みが実際には使えない「推定量」を生み出すことを示せ。
(これは切片の無い線形単回帰モデルを使えば示せる。その結果は通常の多重線形回帰モデルに拡張できる。)


(b)切片の無い線形単回帰モデル
      yi = β xi + εi ; εi 〜 i.i.d. [0 , σ2] ,
について、
      h[Var.(β*) / σ2] + (1 - h)[Bias(β*)/ β]2 , for 0 < h < 1.
という統計量を最小化する線形推定量β*を求めよ。実際に使えるという意味でβ*は正規の推計量か?


Gilesは翌日エントリで手書きのpdfへのリンクという形で答えを示した。以下はそこからの抜粋。

(a)

βhat = Σaiyi を何らかの線形推定量とする。
従って、E(βhat) = ΣaiE(yi)=βΣaixiで、
  Bias(βhat) = E(βhat)ーβ = β[Σaixi-1]
同様に
  var(βhat) = Σai2var(yi) = σ2Σai2
よって
  MSE(βhat) = M = σ2Σai2 + β2[Σaixi-1]2
  ∂M/∂aj = 2σ2aj + 2β2[Σaixi-1]xj = 0  ;∀j            (1)
yjを乗じてすべてのjについて合計すると
  2σ2Σajyj + 2β2[Σaixi-1]Σxjyj = 0
  σ2βhat + β2[Σaixi-1]Σxjyj = 0                      (2)
また、(1)にxjを乗じてすべてのjについて合計すると
  2σ2Σajxj + 2β2[Σaixi-1]Σxj2 = 0
より
  Σaixi = β2Σxj2 / (σ2 + β2Σxj2
これを(2)に代入すると
  σ2βhat + β2[{β2Σxj2 / (σ2 + β2Σxj2)} - 1]Σxjyj = 0
  σ2βhat + β2[(β2Σxj2 ー σ2 − β2Σxj2)/ (σ2 + β2Σxj2)]Σxjyj = 0
  βhat = [β2σ2 / (σ2 + β2Σxj2)][(Σxjyj)/ σ2
      = [β2 / (σ2 + β2Σxj2)]Σxjyj
      = [β2Σxj2 / (σ2 + β2Σxj2)]b
ただし、b = (Σxjyj / Σxj2)はOLS推定量
βhatはβとσ2に依存しているので、実際には計算できない。

(b)

  H = h[var(βhat) / σ2] + (1 - h)[Bias(βhat)/ β]2 ; 0 < h < 1
の最小化を考える(上記同様、βhat = Σaiyi)。
  ∂H/∂aj = 2h・aj + 2(1-h)xj[Σaixi-1] = 0
yjを乗じてすべてのjについて合計すると
  hΣajyj + (1-h)Σxjyj[Σaixi-1] = 0
  hβhat + (1-h)Σxjyj[Σaixi-1] = 0 
同様に、∂H/∂ajの式にxjを乗じてすべてのjについて合計すると
  hΣajxj + (1-h)Σxj2[Σaixi-1] = 0
  Σaixi[h + (1-h)Σxi2] = (1-h)Σxi2
  Σaixi = [(1-h)Σxi2] / [h + (1-h)Σxi2
従って
  hβhat + (1-h)Σxiyi[{((1-h)Σxi2) / (h + (1-h)Σxi2)}-1] = 0 
  hβhat + (1-h)Σxi2b[((1-h)Σxi2 − h − (1-h)Σxi2) / (h + (1-h)Σxi2)] = 0 
  βhat = [1 / (h + (1-h)Σxi2)](1-h)Σxi2b
      = [(1-h)Σxi2 / (h + (1-h)Σxi2)]b
この推計量はすべてのh∈(0,1)についてオペレーショナル。h=0ならばβhat=bであり、h=1ならばβhat=0。