ビッグデータとボラティリティとトレンド

Francis Dieboldが、一口にビッグデータと言っても、どの側面が「ビッグ」なデータを使うのかを用途によって使い分けるべき、という点を株価のボラティリティとトレンドを例に取って説明している

Assembling everything, for estimating yesterday's stock-market volatility you'd love to have yesterday's 1-minute intra-day returns, but for estimating the expected return on the stock market (the slope of a linear log-price trend) you'd much rather have 100 years of annual returns, despite the fact that a naive count would say that 1 day of 1-minute returns is a much "bigger" sample.
So different aspects of Big Data -- in this case dense vs. tall -- are of different value for different things. Dense data promote accurate volatility estimation, and tall data promote accurate trend estimation.
(拙訳)
すべてを集めるとして、昨日の株式市場のボラティリティを推計するためには昨日の1分間隔の日中リターンデータを欲しいと思うだろうが、株式市場の期待リターン(線形対数価格トレンドの傾き)を推計するためにはむしろ100年の年次リターンの方を欲しいと思うだろう。たとえ単純なサンプル数では分次リターンの一日分の方がかなり「ビッグ」なデータであったとしても。
従って、ビッグデータの異なる側面――この場合、高密度のデータ対丈の長いデータ――は異なる事柄について異なる価値を持つ。高密度のデータはボラティリティの正確な推計に役立ち、丈の長いデータはトレンドの正確な推計に役立つ。


高密度のデータや丈の長いデータという概念はDieboldが以前のエントリで打ち出したもので、K変数(株式市場で言えばK銘柄)がT日分あり、一日につき日中データがm個あるとした場合、Tが大きい場合を「丈の長いデータ(tall data)」、Kが大きい場合を「幅の広いデータ(wide data)」、mが大きい場合を「高密度のデータ(dense data)」と呼んでいる。