ビッグデータにおける統計的有意性

というエントリがBig Data Econometricsなるブログに上がっていることを昨年末にDave Gilesが紹介している

以下はそのブログエントリ「Statistical significance in Big Data」からの引用。

It has been recognized for some time that when using large data it becomes “too easy” to reject the null hypothesis of no statistical significance, since confidence intervals are O(N^{-1}) (Granger, 1998). The problem with a standard t-test in large samples is that it is replaced by its asymptotic form and the critical values are drawn from the Normal distribution. As a result, for large sample sizes the critical value for testing at the 95% significance level does not increase with the sample size. One possibility for addressing this problem is to let the critical value be a function of the sample size.

My colleague, Carlos Lamarche, at the University of Kentucky, pointed out this week that one can think about this as a testing problem for nested models. Cameron and Trivedi (2005) suggest using the Bayesian Information Criterion (BIC) for which the penalty increases with the sample size. Using the BIC for testing the significance of one variable is identical to using a two-sided t-test critical value of \sqrt{ln(N)}.

The plot shows how the critical value increases with the scale of the data and how this compares with the standard critical values for the t-test at different levels of significance. Using the BIC suggests using critical values greater than 2 for sample sizes larger than 1000. When using Big Data with over 1M observations, a critical value equivalent to a t-test at the 99% or even 99.9% seems advisable.
(拙訳)
以前から、サイズの大きなデータを使うと統計的有意性の無い帰無仮説の棄却が「あまりにも簡単になる」ということが認識されている。それは、信頼区間がO(N-1)だからである(Granger, 1998*1)。サンプル数の大きいデータにおける標準的なt検定の問題は、検定が漸近形に置き換わり、棄却限界値が正規分布から導かれるようになることにある。結果として、サンプルサイズの大きなデータでは、95%有意水準の検定における棄却限界値がサンプルサイズと共に増加しない。この問題の解決法の一つの候補は、棄却限界値をサンプルサイズの関数とすることである。
私の同僚のケンタッキー大学のCarlos Lamarcheは、今週、これは入れ子型モデルにおける検定問題として考えられると指摘した。Cameron and Trivedi (2005)*2では、ペナルティがサンプルサイズと共に増加するベイズ情報量規準(BIC)を用いることを提案している。一変量の有意性検定にBICを用いることは、棄却限界値が√ln(N)の両側t検定を用いることに等しい。
図では棄却限界値がデータの大きさに応じて増加する様を示し、異なる有意水準の標準的なt検定の棄却限界値と対比させている。BICの適用は、サンプルサイズが1000以上の場合は2以上の棄却限界値を用いるべきことを示唆している。百万個以上のビッグデータを扱う場合は、t検定の99%、あるいは99.9%に相当する棄却限界値を使用するのが望ましい。


Gilesは自身も2年前にこの問題を扱ったことを指摘しているが、そちらのコメント欄では、アンドリュー・ゲルマンがさらにその2年前にこの問題について書いていたことを指摘している。

*1:これ。WPがここで読める。

*2:これ