人々は統計をどのように使っているのか

というNBER論文をアンドレイ・シュライファーらが上げているungated版)。原題は「How People Use Statistics」で、著者はPedro Bordalo(オックスフォード大)、John J. Conlon(スタンフォード大)、Nicola Gennaioli(ボッコーニ大)、Spencer Yongwook Kwon(ブラウン大)、Andrei Shleifer(ハーバード大)。
以下はその要旨。

We document two new facts about the distributions of answers in famous statistical problems: they are i) multi-modal and ii) unstable with respect to irrelevant changes in the problem. We offer a model in which, when solving a problem, people represent each hypothesis by attending “bottom up” to its salient features while neglecting other, potentially more relevant, ones. Only the statistics associated with salient features are used, others are neglected. The model unifies biases in judgments about i.i.d. draws, such as the Gambler’s Fallacy and insensitivity to sample size, with biases in inference such as under- and overreaction and insensitivity to the weight of evidence. The model makes predictions about how changes in the salience of specific features should jointly shape the prevalence of these biases and measured attention to features, but also create entirely new biases. We test and confirm these predictions experimentally. Bottom-up attention to features emerges as a unifying framework for biases conventionally explained using a variety of stable heuristics or distortions of the Bayes rule.
(拙訳)
我々は有名な統計学上の問題の回答分布について2つの新たな事実を明らかにする。それらの分布は、i) 多峰性があり、ii) 問題と無関係の変更について不安定である。我々は一つのモデルを提示するが、そこでは人々が問題を解く際に、それぞれの仮説の目立つ特徴に「ボトムアップ型」の注意*1を向ける一方で、より重要かもしれない他の特徴を無視する。目立つ特徴に関連する統計値だけが使われ、他は無視される。このモデルは、ギャンブラーの誤謬やサンプルサイズへの無反応のような、独立した抽出についての判断における偏りと、過小反応および過剰反応や証拠の重みへの無反応のような、推計における偏りとを統合する。モデルでは、特定の特徴の目立ち具合に変化が生じた場合、そうした偏りの普遍性ならびに特徴への計測される注目がどのように形成されるか、および、それに加えてどのように完全に新たな偏りを生み出されるか、を予測する。我々はこうした予測を実験的に検証ならびに確認する。特徴へのボトムアップ型の注意は、様々な安定した経験則、もしくはベイズ則の歪みを用いて便宜的に説明された偏りについて、統合的な枠組みとして機能する。

ギャンブラーの誤謬を実際に実験で確認した結果として論文では以下のグラフを示している。

これは、コイントスで裏(t)と表(h)が両方出る「バランスの取れた」結果と、表だけが続けて出る結果を比較し、どちらの可能性が高いかを被験者に訊いた結果の分布である(左は2回、右は6回の試行)。50%以下に分布が傾いており、「バランスの取れた」結果に回答が偏っていることを示している。

推計における偏りの例として論文では以下のグラフを示している。

左は以下のボールと壺問題への回答の分布、右はタクシー問題の回答の分布である。

ボールと壺問題
壺Aには緑のボールが80%、青のボールが20%入っている。壺Bには緑のボールが20%、青のボールが80%入っている。コンピュータが壺AとBをそれぞれ25%と75%の確率で選択し、ボールを抽出したところ、引き出されたボールは緑であった。ボールが壺Aから抽出された確率は?
タクシー問題
走らせている車の色によって青と緑と呼ばれる2つのタクシー会社があり、全体の25%が緑、75%が青である。あるタクシーがひき逃げ事故を起こし、目撃者はタクシーは緑だったと証言した。テストによれば、目撃者がタクシーの色を正しく識別できる確率は80%であった。事故を起こした車が実際に緑である確率は?

両問題は、問題の設定が違うだけで、統計学的には同一の問題であり、ベイズ則を使ってPr(A|g) = Pr(緑|g) = 0.57となる*2
然るに、回答の分布をみると、ボールと壺問題では平均的にデータへの過小反応が生じ、平均(実線)は52%と正答(点線)より低くなっている。また、多峰性も現れており、25%という基準率のほか、80%と50%にも集中が見られる。
一方、ボールと壺問題と本質的な違いの無いはずのタクシー問題では、回答の分布が変わるという不安定性が出ている。そちらでは80%への集中が起きており、平均的に回答者が過剰反応している、と著者たちは言う。

人々が何に注目するかによってこのような偏りが生じる、というのが著者たちの主張だが、それについて彼らはアヒルとウサギのだまし絵*3になぞらえている。嘴に注目する人はアヒルと言い、口に注目する人はウサギと言う、というわけだ。コイントスの場合は、各回で裏表の出る確率に注目するか、全体に占める表の割合に注目するか、で回答が違ってきている。後者に注目する人は、各回で裏表の出る確率がそれぞれ50%であることを無視し、表の出る割合がバランスの取れた方を選好する、というわけだ。ボールと壺問題では、ある人は壺Aを選択する事前確率に注目し、別の人はそこから緑のボールを引き出す確率に注目している。
彼らのモデルでは、意思決定者は問題についての統計を正しく使うが、特徴への注目がその目立ち具合で生じることによってのみ誤りが生じる、という形でこれをモデル化したとの由。

*1:cf. 視覚性トップダウン型注意とボトムアップ型注意 - 脳科学辞典

*2:Pr(A|g)=Pr(A)×Pr(g|A)/Pr(g)=0.25*0.8/(0.25*0.8+0.75*0.2) =0.57、
Pr(緑|g)=Pr(緑)×Pr(g|緑)/Pr(g)=0.25*0.8/(0.25*0.8+0.75*0.2) =0.57。

*3:cf. Rabbit–duck illusion - Wikipedia