経済学者がビッグデータに熱心でない理由

BOEチーフエコノミストのアンドリュー・ホールデンが、ビッグデータをテーマに講演している(H/T Mostly Economics)。
その中で、ビッグデータに対する経済学者とデータサイエンティストの態度の違いについて以下のように述べている。

The first thing to say is that Big Data and data analytic techniques are not new. Nonetheless, over recent years they have become one of the most rapidly rising growth areas in academic and commercial circles. Over that period, data has become the new oil; data analytic techniques have become the oil extraction and refining plants of their time; and data companies have become the new oil giants.
Yet economics and finance has, to date, been rather reticent about fully embracing this oil-rush. For economics and finance, the use of data analytic techniques has been the path less followed, at least relative to other disciplines. One simple diagnostic on that comes from looking at the very different interpretations put on the expression “data mining” by those inside and outside of economics and finance.
For economists, few sins are more heinous than data-mining. It is the last resort of a scoundrel to engage in “regression-hunting”- reporting only those regression results which best fit the hypothesis the researcher first set out to test. It is what puts the “con” into econometrics. For most economists, such data-mining has unfortunate similarities with oil-drilling - a dirty, extractive business which comes with big health warnings.
For data scientists, the situation could not be more different. For them, the mining of data is a means of extracting valuable new resources and putting them to use. It enables new insights to be gained, new products to be created, new connections to be made, new technologies to be promoted. It provides the raw material for a new wave of productivity and innovation, an embryonic Fourth Industrial Revolution.
(拙訳)
最初に言っておくべきは、ビッグデータとデータ解析技法は新しいものではない、ということである。にも拘らず、それらは、学界や実業界で近年最も急速に成長している分野の一つになった。その過程で、データは新たな石油になったのである。データ解析技法は現代の石油抽出・精錬工場となり、データ企業は新たな石油の巨人となった。
しかし経済学・ファイナンスは、これまでのところ、このオイルラッシュを全面的に受け入れることにどちらかというと消極的であった。経済学・ファイナンスでは、データ解析技法を使うことは、少なくとも他の分野に比べると、あまり行われなかった。そのことは、「データマイニング」という表現が経済学・ファイナンスの内外でまったく違った解釈をされることに端的に表れている。
経済学者にとって、データマイニングほど悪質な罪はあまりない。「回帰ハンティング」、即ち研究者が検証しようとした仮説に最も良く当てはまる回帰結果だけを報告することは、悪党の最後の手段なのである。それは計量経済学に「ペテン」を呼び込むことになる。大半の経済学者にとって、そうしたデータマイニングは石油掘削と不幸な共通点がある。健康に重大な被害をもたらす怖れのある汚い抽出事業、というわけだ。
データサイエンティストにとっては、状況は正反対である。彼らにとっては、データのマイニングは、価値ある新たな資源を抽出して利用する手段である。それは、新たな洞察を得ること、新製品を作り出すこと、新しい結合を生み出すこと、新技術を促進することを可能にする。生産性とイノベーションの新たな波、緒に就いたばかりの第四次産業革命のための原材料を提供するものなのである。


そうした違いが生じた理由についてホールデンは以下のように解説している。

What explains some economists’ caution about Big Data? The answer lies, in part, in methodology. A decent chunk of economics has followed in the methodological footsteps of Karl Popper in the 1930s. Popper championed a deductive approach to scientific advance. That started with axioms, moved from axioms to theory and then and only then took hypotheses to the data. Theory, in other words, preceded measurement.
There is an alternative, inductive, approach. This has even deeper roots, in the work of Francis Bacon from the early 1600s. This turns the telescope around. It starts with data, unconstrained by axioms and hypotheses, and then uses this to inform choices about models of behaviour. Data, in other words, precedes theory. Indeed, some data scientists have suggested such an approach could signal the “End of Theory”.
So where some economists have tended to see the pitfalls in Big Data, data scientists have seen promise. Where some economists have tended to see the ecological threat it poses, data scientists have seen the economic potential. I am caricaturing a little, but only a little. So who is right? And does the era of Big Data signal an oil-rush or an oil-spill?
The truth, as often, probably lies somewhere in between. Both deductive and inductive approaches can offer insights into understanding the world. They are better seen as methodological complements than as substitutes. Put differently, using one approach in isolation increases the risk of making faulty inferences, and potentially serious mistakes, in understanding and policy.
(拙訳)
一部の経済学者がビッグデータを警戒するのはなぜだろうか? その一因は、方法論にある。経済学は少なからず、1930年代のカール・ポパーの方法論を踏襲している。ポパーは科学の進歩において演繹的手法を重視した。それは、公理から始まり、公理から理論に移り、そこで初めて仮説をデータに突き合わせる、というやり方である。言い換えれば、理論が計測に先行する。
それとは別のやり方として、帰納的手法がある。こちらの起源はもっと昔で、1600年代初めのフランシス・ベーコンの研究まで遡る。これは望遠鏡を引っ繰り返す形になる。まず公理や仮説に制約されないデータから始まり、そこから得られた情報を行動モデルの選択に利用するのである。言い換えれば、計測が理論に先行する。実際、データサイエンティストの中には、こうした手法は「理論の終わり」を告げるものだ、と言う者もいる。
ということで、一部の経済学者がビッグデータに陥穽を見た一方で、データサイエンティストは展望を見たのである。一部の経済学者がビッグデータに環境への脅威を見た一方で、データサイエンティストは経済的可能性を見た。ここでは少しばかり戯画化しているが、ほんの少しだけである。では、どちらが正しいのだろうか? ビッグデータの時代はオイルラッシュを告げるのだろうか、それとも石油流出を告げるのだろうか?
真実は、しばしばそうであるように、おそらくその中間のどこかにある。演繹的手法と帰納的手法のいずれもが、世界を理解する上での洞察を与えてくれる。代替的手法ではなく補完的手法として捉えるべきなのだ。言い換えれば、片方の手法だけを用いると、世界の理解や政策において、誤った推論を行い、場合によっては深刻な間違いを犯す危険性が高まる。