バングラデシュのマスク研究から何を結論すべきか?

バングラデシュでのRCTの結果を基に、マスクはコロナ感染防止に有効である、という報告が出されたが、UCバークレー機械学習の研究者であるBen Rechtが「Effect size is significantly more important than statistical significance.」と題したブログエントリでその結果に疑問を呈し、タイラー・コーエンが表題のコメント(原文は「What should we conclude from the Bangladesh mask study?」)を付けてそれにリンクした。以下はエントリの概要。

  • クラスターRCTということで、研究では患者ではなく村をランダム化した。サンプルサイズは大きく見えるが(34万人)、村単位で処置を適用したため、実効サンプル数は600に過ぎない*1。人口動態特性を基に村はペアに分けられ、片方の村は処置群、もう片方は対照群にランダムに割り当てられた。処置群の300の村は、無料のマスク、マスクの重要性の情報、地域の指導者によるロールモデル、対面でのリマインダーを8週間受け取った。対照群の300村は処置を一切受けなかった。
  • 研究では、有症状者数(処置群13,273、対照群13,893)、血液検査への同意者数(処置群5,414、対照群5,538)、コロナ抗体検査のために血液が採取された人数(処置群5,006、対照群4,971)を正確に報告しているが、不思議なことに、実際の陽性者数はプレプリントのどこにも掲載されていない。
  • 報告によれば、対照群の人の0.76%が有症状で血清反応陽性となったのに対し、処置群ではその数字は0.69%であった。リスクは1.1だけ減少したのであり、論文の著者たちはこれは統計的に有意であるとしている。
  • しかし、陽性率の計算法が論文では明確に示されていないため、人数を通算して計算したのか、各村で計算したものを平均したのかが不明である。
    • 仮に1万人の村と6000人の村の2つのペアがあり、前者で処置村に136人、対照村に75人の陽性者が出て、後者で処置村に0人、対照村に46人の陽性者が出たとする。
      • 人数を通算すると、処置群は136/16000=0.85%、対照群は121/16000=0.76%となり、対照群の方が1.1倍良いことになる。
      • 各村で計算したものを平均すると、処置群は(136/10000+0/6000)/2=0.68%、対照群は(75/10000+46/6000)/2=0.76%となり、処置群の方が1.1倍良いことになる。
    • いずれにせよ、この例では32,000人に対する15人の違いを論じていることになる。結果の数字が小さい時には、問題が特に難しくなる。
  • 効果量が小さくて測定に敏感である時には、統計的有意性に助けを求めるのが常である。著者たちは「正規の群と独立性による一般化最小二乗法(GLM)」と述べているが、要は正規分布からサンプルされたものとして通常の最小二乗回帰を走らせた、ということである。表の注記からすると、各村の陽性率を平均が村クラスターの変数とその他の何らかの共変量の関数である正規分布に従うものとしたように思われる。それから村単位の陽性率をモデルで推計し、それを平均して処置群と対照群の最終結果を計算したようである。
  • ガウス分布のモデルは、コーディングを容易にし、通常の計量経済学の様式で結果を報告することを可能にするかもしれないが、ほぼ確実に間違っている。負の数を取れないカウント数は正規分布に従うはずがない。実際、300村中36で感染者数がゼロであるが、ガウス分布が良い近似になっていればそうした結果はまずあり得ない。著者たちはモデルの前提を調整することなく単にそれらの村を回帰から除いているが、それは平均陽性率の過大評価につながる。
  • 論文ではそこからp値と信頼区間を計算しているが、モデルが正しくない場合はそれらの数字は無意味である。
  • 論文の著者たちは自分のような批判者を予期して頑健性のチェックを行っており、主モデルの前提を排してカウント数がポアソン分布に従うとしたモデルでも効果量は同様だった、としている。しかし、ポアソン分布は独立事象が一定の割合で起こるモデルであり、感染に無関係な心臓発作のモデルとしては良いが、感染モデルとしてはやはり現実的ではない。感染はランダムではなく、他の患者との相互作用によって複雑な動学的拡散が生じ、お馴染みの流行曲線が生成される。数学的に言えば、同様のアルゴリズムで計算される一般化された線形モデルが同じ効果量の推計値を出しても不思議ではないが、両モデルとも間違っているので、両者の計算結果を掲載しても何かの保証になるとは思われない。
  • こうした統計分析を提示するよりは、陽性者の生データを掲載して読者が解釈できるようにすべきではなかったか? 有症状者数が人数単位で正確に報告されているのであるから、猶更そうである。
  • ワクチンのRCTと比較すると問題がはっきりする。RCTが因果推定の「黄金律」であるとするならば、ワクチン研究はRCTのもっとも純粋な形であり、RCTの「黄金律」である。ワクチン試験は盲検化が容易であり、臨床的均衡*2がほぼ常にあり、世界人口からほぼむらなくサンプリングでき、統計的な検証が普通にできる。ファイザーワクチンの場合、効果量は非常に大きく(リスク減少が20倍)、信頼区間は独立した2値ランダム変数からの正確な計算にきちんと基づいている。そもそも効果量が大きいので信頼区間はそれほど重要ではない。カプラン・マイヤー曲線を眺めればmRNAワクチンの驚くべき効果は堪能できる。
  • 残念ながら、もちろん大抵の効果量は20の水準にはなく、2以下が普通であり、今回のマスク研究では1.1以下だった。そうした研究は珍しくない。
  • 効果量ではなくp値を巡って争うのは、木を見て森を見ないことである。アーネスト・ラザフォードの有名な言葉に「実験で統計学が必要になったら、もっと良い実験をすべきだった、ということだ」というものがある。それをより穏当にした指針が科学的調査に適用されるべきと考える。即ち、効果量が小さくて精緻な統計学が必要になったら、効果が本物ではないことを意味するのではないか。

*1:サンプルサイズ(sample size)、サンプル数(number of samples)の表記は原文ママ

*2:cf. Clinical equipoise - Wikipediaこちらの資料では「臨床実験においては、いずれの治療法がよいかわからない状態にのみ複数の治療法の比較を行うことが正当化されるが、この「いずれの治療法がよいかわからない状態」について、臨床的平衡 clinical equipoise という概念が提唱されている。科学的な証拠に基づく理論的均衡は臨床家の好みや意思決定の複雑さにより変動するので、もろく崩れやすい。これに対して、臨床的均衡すなわち臨床的エキスパートの間でいずれの治療法がよいかのコンセンサスが存在しない状態が比較実験を行うことで disturb されると期待できる場合にのみ、比較実験を開始することが許される、という考え方である。」と解説されている。