帰無仮説の検定は反証主義的な手法ではない

ということをアンドリュー・ゲルマンが強調している

...it’s my impression that null hypothesis significance testing is generally understood as being part of a Popperian, falsificiationist approach to science.

So I think it’s worth emphasizing that, when a researcher is testing a null hypothesis that he or she does not believe, in order to supply evidence in favor of a preferred hypothesis, that this is confirmationist reasoning. It may well be good science (depending on the context) but it’s not falsificationist.
(拙訳)
・・・帰無仮説の有意性の検定がポパー的手法、科学における反証主義的手法の一部だと一般には理解されている、という印象を持っている。
従って、研究者が自分のお気に入りの仮説を支持する証拠を得るために自分が信じていない帰無仮説を検定するというのは確証主義的手法である、という点は強調に値する。それは(文脈次第では)良き科学に十分なり得るが、反証主義ではない。


そのことを改めて強調するきっかけになったのは、Deborah Mayoのブログエントリでのやり取りだったという。

...Mayo wrote:

...
I’m not sure I’m getting to your concern Andrew, but I think that they see themselves as following a falsificationist pattern of reasoning (rather than a confirmationist one). They assume it goes something like this:

If the theory T (clean prime causes less judgmental toward immoral actions) were false, then they wouldn’t get statistically significant results in these experiments, so getting stat sig results is evidence for T.

This is fallacious when the conditional fails.

And I replied that I think these researchers are following a confirmationist rather than falsificationist approach. Why do I say this? Because when they set up a nice juicy hypothesis and other people fail to replicate it, they don’t say: “Hey, we’ve been falsified! Cool!” Instead they give reasons why they haven’t been falsified. Meanwhile, when they falsify things themselves, they falsify the so-called straw-man null hypotheses that they don’t believe.

The pattern is as follows: Researcher has hypothesis A (for example, that the menstrual cycle is linked to sexual display), then as a way of confirming hypothesis A, the researcher comes up with null hypothesis B (for example, that there is a zero correlation between date during cycle and choice of clothing in some population). Data are found which reject B, and this is taken as evidence in support of A. I don’t see this as falsificationist reasoning, because the researchers’ actual hypothesis (that is, hypothesis A) is never put to the test. It is only B that is put to the test. To me, testing B in order to provide evidence in favor of A is confirmationist reasoning.
Again, I don’t see this as having anything to do with Bayes vs non-Bayes, and all the same behavior could happen if every p-value were replaced by a confidence interval.

I understand falisificationism to be that you take the hypothesis you love, try to understand its implications as deeply as possible, and use these implications to test your model, to make falsifiable predictions. The key is that you’re setting up your own favorite model to be falsified.

In contrast, the standard research paradigm in social psychology (and elsewhere) seems to be that the researcher has a favorite hypothesis A. But, rather than trying to set up hypothesis A for falsification, the researcher picks a null hypothesis B to falsify and thus represent as evidence in favor of A.

As I said above, this has little to do with p-values or Bayes; rather, it’s about the attitude of trying to falsify the null hypothesis B rather than trying to trying to falsify the researcher’s hypothesis A.
(拙訳)
・・・Mayoは次のように書いた:

・・・
アンドリュー、貴兄の懸念を正しく捉えているかどうか分からないけれど、彼らは自分たちは(確証主義ではなく)反証主義の推論パターンを踏襲していると考えていると思う。彼らが前提とする推論は次のようなものだ:
もし理論T(綺麗な言葉を連想すると不道徳な行動に批判的になりにくい*1)が誤りならば、彼らはこれらの実験で統計的に有意な結果を得ないであろう。従って、統計的に有意な結果を得ることはTの証拠となる。
その条件が満たされない場合、それは偽となる。

これに対し私は、それらの研究者は反証主義的ではなく確証主義的な手法を採っていると思う、と返答した。なぜそう思うのか? その理由は、彼らがご立派な仮説を提示して他の人々が再現に失敗した場合、彼らは「おお、我々は反証された!素晴らしい!」とは言わないからである。その代わり彼らは、仮説が反証されていない理由を並べ立てる。一方、彼らが自分で反証する場合には、自分が信じていないいわゆる藁人形の帰無仮説を反証する。
お決まりのパターンは次のようなものだ:研究者が仮説A(例えば、月経周期は性的誇示と関係している)を信じている場合、仮説Aを確証する手段として、仮説B(例えば、あるサンプルにおいて月経周期中の期日と衣服の選択は無相関である)を持ち出す。データによって仮説Bは棄却され、それがAを支持する証拠とされる。私はこれは反証主義的推論だとは思わない。というのは、研究者の実際の仮説(即ち、仮説A)は決して検証の対象になっていないからである。検証の対象になったのは仮説Bだけである。私に言わせれば、Aを支持する証拠を得るためにBを検証することは、確証主義的推論である。
繰り返しになるが、これはベイズ対非ベイズとは関係無い話だと考えている。たとえp値がすべて信頼区間で置き換えられた場合でも、研究者はまったく同じ振る舞いをするだろう。
反証主義は、自分の愛する仮説を取り上げ、その含意をできるだけ深く理解することに努め、それらの含意を用いてモデルを検証すること、反証可能な予測を立てることだと理解している。
対照的に、社会心理学(や他の分野)の標準的な研究パラダイムでは、研究者がお気に入りの仮説Aを持っている場合、仮説Aを反証主義の対象にするのではなく、帰無仮説Bを取り上げて反証し、Aを支持する証拠として提示する。
上述の通り、これはp値やベイズとはほぼ無関係の話である。これは、研究者自身の仮説Aを反証するのではなく帰無仮説Bを反証しようとする態度についての話である。


ただ、ゲルマンは、冒頭の引用部で「(文脈次第では)良き科学に十分なり得る」と述べているように、確証主義を頭から否定しているわけではない。別の部分では以下のように書いている。

It is tempting to frame falsificationists as the Popperian good guys who are willing to test their own models and confirmationists as the bad guys (or, at best, as the naifs) who try to do research in an indirect way by shooting down straw-man null hypotheses.

And indeed I do see the confirmationist approach as having serious problems, most notably in the leap from “B is rejected” to “A is supported,” and also in various practical ways because the evidence against B isn’t always as clear as outside observers might think.

But it’s probably most accurate to say that each of us is sometimes a confirmationist and sometimes a falsificationist. In our research we bounce between confirmation and falsification.
(拙訳)
反証主義者は、自らのモデルを進んで検証するポパー主義の善玉であり、確証主義者は、藁人形の帰無仮説を撃ち落とすという間接的なやり方で研究を進めようとする悪玉(もしくは良く言ってナイーブな人々)である、という構図に落とし込むのは魅力的である。
実際、確証主義者の手法には深刻な問題がある、と私は考えている。最も顕著な問題は、「Bが棄却された」から「Aが採択された」への飛躍である。また、Bを否定する証拠が外部の観察者が思うほど常に明確ではないため、実務面でも様々な問題がある。
ただ、おそらく最も正確な表現は、我々は皆、ある時は確証主義者であり、ある時は反証主義者である、というものだろう。研究において我々は、確証と反証の間を行ったり来たりする。

*1:このエントリでMayoはこちらの論文を俎上に載せている。