我々は欲しいデータではなく手持ちのデータで戦わねばならない

28日エントリに、稀にしか起きないイベントについて確率を論じることの無意味さを指摘するコメントを頂いたが、そうした議論とつながっていなくもないテーマがアンドリュー・ゲルマンのブログで扱われていた。ただし書いたのはゲルマンではなく、ローレンス・バークレー国立研究所の物理学者Phillip “Phil” Price


そこで彼は、何らかの推計において、完全にランダムなサンプルはまず手に入らないので、取りあえず入手可能なサンプル=便宜的標本(convenience sample)で推計した結果を一般化するのは常識の部類に属すると思っていたが、そうではなかった、という愚痴をこぼしている。具体的には、あるテーマについてそうした便宜的標本で推計を行ったところ、その結果から何らかの結論を導き出そうとする行為は完全に誤りである、とポスドクに強硬に抗議された、とのことである。


同エントリでPhilは、似た話としてゲルマンの26日エントリにリンクしているが、そこでゲルマンは、別の社会学者(Fabio Rojas)がある統計学者と不毛な会話を交わした経験を紹介している。

Rojas: “What does your research tell us about a sample of, say, a few hundred cases?”
Statistician: “That’s not important. My result works as n–> 00.”
Rojas: “Sure, that’s a fine mathematical result, but I have to estimate the model with, like, totally finite data. I need inference, not limits. Maybe the estimate doesn’t work out so well for small n.”
Statistician: “Sure, but if you have a few million cases, it’ll work in the limit.”
Rojas: “Whoa. Have you ever collected, like, real world network data? A million cases is hard to get.”
Statistician: “The Internet is a network with millions of nodes.”
Rojas: “Sure, but the Internet is one specific network. Most real world networks have hundreds or thousands of nodes. Like a school, or firms that trade with each other. Network data is expensive to collect. Some famous social science papers analyze networks of dozens of people.”
Statistician: “Um… the Internet! Scaling! Big networks! The Internet is a network! Facebook! FACE. BOOK!”
Rojas (rolls eyes): “What-EVER!”


(拙訳)

Rojas
貴兄の手法は、たとえば数百件のサンプルについてはどのような結果が得られますか?
統計学
それは問題になりません。私の手法はn→∞の時に機能するので。
Rojas
それは数学的には結構な話ですが、私は非常に限られたデータでモデルを推計しなければならないのです。極限値ではなく推計値が欲しいのです。多分nが小さいとあまり良い推計結果が得られないのでしょうね。
統計学
それはそうですが、数百万件ほどデータがあれば、極限値が得られるでしょう。
Rojas
ええと、実際のネットワークのデータを収集されたことはありますか? 数百万というデータを入手するのは非常に難しいのですよ。
統計学
インターネットは数百万のノードを持つネットワークですよ。
Rojas
それはそうですが、インターネットは一つの特定のネットワークです。大抵の現実世界のネットワークには何十万というノードがあります。学校や、相互に取引を行う企業などです。そうしたネットワークのデータの収集は高くつきます。有名な社会科学の論文の中には、数十人の人々のネットワークを分析したものもあります。
統計学
インターネット! 規模の効果! 大規模ネットワーク! インターネットこそがネットワークなのだ! フェイスブック! 顔本!
Rojas
(うんざり顔で)わかりました、わかりました!


このエントリのコメント欄では、Michael D. Maltzが自分の以前の論文の以下の一節から引用し、サンプル数の多さにこだわることの愚を説いている(ちなみに同氏は7年前のエントリのコメント欄でも同じ引用をしている)。

As McCord (1993, p. 412) points out, researchers mistakenly try to find more support for their theories by using a larger N. Lieberson (1985, p. 105) notes, "One does not really improve a situation with poor data by increasing the 'N' and then hoping to deal with more variation." Despite the Journal of Experimental Psychology's dictum, not all small-sample experiments should be thrown out because of the lack of statistical significance. Mosteller (1981, p. 881) describes an experiment conducted in 1747, with sailors afflicted with scurvy. A physician administered one of six treatments-vinegar, sea water, cider, vitriol elixir, citrus fruit, and nutmeg-to two sailors each, for a total N of 12. Only the two who ate the citrus fruit were cured, in just a few days, leading the physician to believe that he had found the cure, which is a logical conclusion. But this result is doubtless not significant at the .05 level. [What would be the fate of a crime analyst who told the police chief, "We only have two cases in which the victim was dismembered; this is too small an N to infer a pattern"?]
(拙訳)
McCord (1993, p. 412)が指摘したように、研究者はNを大きくすることによって自分の理論の裏付けを強化しようという誤った道を進む。Lieberson (1985, p. 105)は、「'N'を増やし、それによって処理すべきばらつきが増えることを期待しても、データが乏しいという状況が真に改善することは無い」と述べている。Journal of Experimental Psychologyのモットーには反するが、小サンプルの実験結果を統計的有意性の欠如を理由にすべて捨ててしまって良いわけではない。Mosteller (1981, p. 881) は、壊血病に冒された水夫を対象に1747年に行われた実験を紹介している。その実験で医者は、ビネガー、海水、シードル、硫酸エリキシル、柑橘類、ナツメグという6つのそれぞれを二人の水夫に与えるという療法を施した*1。つまりNは計12だった。柑橘類を食した二人だけが数日で回復し、医師は治療法を見つけたと考えたが、それは論理的な結論だった。しかしこの結果は疑いなく5%水準で有意ではなかっただろう(「被害者の手足が切断されたのは二件しかないので、犯罪パターンを推定するにはNが小さ過ぎる」などと犯罪分析官が警察署長に言ったらどうなることだろうか?)*2

*1:この医者はジェームズ・リンドで、このエピソードは日本でも有名。例えばここでは似た話として脚気に関するエピソードと併せて紹介されている。

*2:原注:こうしたケースではベイジアン統計がもっと有用な推計結果を与えてくれるだろう。