オンラインデータを使った地域経済のナウキャスティング

に取り組んだNBER論文をエドワード・グレイザーらが上げている。論文のタイトルは「Nowcasting the Local Economy: Using Yelp Data to Measure Economic Activity」で、著者はEdward L. Glaeser、Hyunjin Kim、Michael Luca(いずれもハーバード大)。
以下はその要旨。

Can new data sources from online platforms help to measure local economic activity? Government datasets from agencies such as the U.S. Census Bureau provide the standard measures of local economic activity at the local level. However, these statistics typically appear only after multi-year lags, and the public-facing versions are aggregated to the county or ZIP code level. In contrast, crowdsourced data from online platforms such as Yelp are often contemporaneous and geographically finer than official government statistics. In this paper, we present evidence that Yelp data can complement government surveys by measuring economic activity in close to real time, at a granular level, and at almost any geographic scale. Changes in the number of businesses and restaurants reviewed on Yelp can predict changes in the number of overall establishments and restaurants in County Business Patterns. An algorithm using contemporaneous and lagged Yelp data can explain 29.2 percent of the residual variance after accounting for lagged CBP data, in a testing sample not used to generate the algorithm. The algorithm is more accurate for denser, wealthier, and more educated ZIP codes.
(拙訳)
オンラインのプラットフォームにおける新たなデータソースは、地域の経済活動を計測するのに役立つだろうか? 米センサス局のような機関が公表する政府のデータセットは、地域レベルの地域の経済活動について標準的な指標を提供する。しかし、こうした統計は数年経過した後に漸く公表されるのが普通で、公開版は郡もしくはZIPコードレベルに集約されている。対照的に、Yelpのようなオンラインのプラットフォームにおけるクラウドソースのデータは、同時的、かつ、政府の公式統計よりも地理的に細かい場合が多い。本稿では、リアルタイムに近いタイミングで、詳細なレベル、かつ、ほぼすべての地理的スケールの経済活動を計測することにより、Yelpデータは政府調査を補完できる、という証拠を示す。Yelpでレビューされる企業やレストランの数の変化は、郡ビジネスパターン*1における企業やレストランの全体数の変化を予測することができる。Yelpの同時およびラグ付きデータを使ったアルゴリズムにより、そのアルゴリズムの生成に使われなかった検証用のサンプルにおいて、CBPのラグ付きデータで説明した後の残差変動の29.2%を説明することができる。そのアルゴリズムは、人口密度が高く、裕福で、教育水準の高いZIPコードにおいて正確性を増す。

ちなみにYelpの公式ブログでもこの研究が取り上げられている

*1:cf. ここ