頻度主義の信頼区間が破綻する時

昨日のエントリで「これまで長年使われてきた検定がそれほど間違っているはずはない」というノアピニオン氏の意見を紹介したが、それに対してコメンターの一人が、以下のエピソードを紹介している。

I first presented this result to a recent convention of reliability and quality control statisticians working in the computer and aerospace industries; and at this point the meeting was thrown into an uproar, about a dozen people trying to shout me down at once. They told me, "This is complete nonsense. A method as firmly established and thoroughly worked over as confidence intervals couldn't possible do such a thing. You are maligning a very great man; Neyman would never have advocated a method that breaks down on such a simple problem. If you can't do your arithmetic right, you have no business running around giving talks like this".
After partial calm was restored, I went a second time, very slowly and carefully, through the numerical work leading to (18), with all of them leering at me, eager to see who would be the first to catch my mistake [it is easy to show the correctness of (18), at least to two figures, merely by applying a parallel rulers to a graph of F(u)]. In the end they had to concede that my result was correct after all.
To make a long story short, my talk was extended to four hours (all afternoon), and their reaction finally changed to: "My God – why didn't somebody tell me about these things before? My professors and textbooks never said anything about this. Now I have to go back home and recheck everything I've done for years".
This incident makes an interesting commentary on the kinds of indoctrination that teachers of orthodox statistics have been giving their students for two generations now.
(拙訳)
私はこの結果を、コンピュータ産業と航空産業で信頼性と品質管理に携わっている統計専門家の直近の大会で最初に提示した。その時点で大会は喧々囂々となり、同時に10人以上の人々が私を怒鳴りつけて黙らせようとした。彼らは「これは完全にナンセンスだ。信頼区間のように確証され調べ尽くされた手法でそんなことが起きるはずが無い。君は非常に偉大な人間を中傷しているのだ。ネイマンがこんな簡単な問題で破綻する手法を提唱するはずが無いではないか。もし計算もまともにできないならば、この分野でこんな話をする資格は君には無い。」と私に言った。
皆が少し落ち着きを取り戻した段階で私は、非常にゆっくりとかつ慎重に、(18)式に至る数式の展開をもう一度行った。皆は、誰が最初に私の間違いに気付くかを競うかのように目を皿のようにして私を見つめた((18)式の正しさ、少なくとも2つの数値の正しさを示すことは容易で、F(u)のグラフに平行定規を当てれば事足りる)。最終的には私の結果は正しいということを皆は認めざるを得なかった。
その後の話を要約すると、私の講演は4時間(午後全部)まで延び、彼らの反応は最後には「何たることだ。なぜもっと前に誰かがこのことについて教えてくれなかったのだ? 私の教授も教科書もこれについて何も教えてくれなかった。これから家に戻って長年に亘ってやってきたことすべてを再確認せねばなるまいて。」というものになった。
この出来事は、伝統的な統計学の教師がこれまで2世代に亘って学生に教え込んできたものがどんなものかを雄弁に物語っている。

これは、最大エントロピー原理の提唱で有名なE.T.ジェインズ(E.T. Jaynes)の論文からの引用で、彼が大会で提示した伝統的な統計学(頻度主義統計学)における信頼区間の破綻例は概ね以下の通り。


ある装置は、注入された反応抑制剤が無くなると、指数的故障法則に従って故障する。抑制剤が無くなる時間はθであるが、これは直接には観測できず、故障発生時刻のみ観測できる。故障発生時刻が{x1...xN}であり、これが指数的故障法則に従っている場合、
  p(dx|θ)=exp(θ-x)dx  x>θ
       =0         x<θ
となる((15)式)。この時サンプル平均E(x)=θ+1であるため、
  θ*≡(1/N)Σ(xi-1)
がθの不偏推定量となる((16)式)。この分散は(1/N)である。
特性関数を用いることによって、θ*のサンプル分布はyN-1exp(-Ny)に比例することが分かる(y≡θ*-θ+1)。この式から最短信頼区間の解析解を求めることはできないため、N=3、{x1,x2,x3}={12,14,16}の場合に話を限定し、最短の90%信頼区間を求めるものとする。
その時の累積分布関数は、F(y)=[1-(1+3y+9y2/2)exp(-3y)]、y>0となる。F(y2)-F(y1)=0.9を満たすすべてのy1、y2が90%信頼区間を満たすが、最短のものを得るためにF'(y1)=F'(y2)という制約を課すと、
  θ*-0.8529<θ<θ*+0.8264
((17)式)、ないし、上に例示した数字では
  12.1471<θ<13.8264
が得られる((18)式)。
一方、事前分布を一様分布として(15)式にベイズ法を適用すると、θの事後分布は
  p(θ|x1...xN)=NexpN(θ-x1)  θ<x1
         =0          θ>x1
となる((19)式)。ただしここではサンプルが昇順に並んでいるものとし、x1が最小の観測値であるとする。これから、100Pパーセントの事後確率を含む最短の事後確率帯は(x1-q)<θ<x1となる(q=-N-1log(1-P))。上記の数値例については、90%の確率でθの真の値は
  11.23<θ<12.0
区間に含まれることになる((20)式)。
常識的に考えれば、ベイズ推定の方に軍配が上がる。というのは、(18)式の信頼区間は(20)式の倍以上であり、しかも完全にθ>x1の領域にあるが、それはθが位置するはずの無い場所である。
ジェインズによれば、(17)式は無限回試行した極限では正しいが、θ*>x1+0.85となる場合は必ず間違いとなるとの由。