ピケティらが陥った所得データの陥穽? ~パススルーをスルーしては駄目よの巻~

こちらのツイートで、「ピケティらが陥った所得データの陥穽?・続き - himaginary’s diary」で紹介したPiketty, Saez, and Zucman(PSZ)とAuten=Splinter(AS)の論争に進展があったことを知った。具体的には、AS論文がJournal of Political Economyの今年7月号に掲載された一方で、PSZ側が改めて反論論文を更新し、それをZucmanが連ツイで解説している
その連ツイの中でZucmanは、メリーランド大のDaniel Reckの連ツイにリンクしている。これは、ReckとJohn Iselin(同じくメリーランド大)が書いた論文をReck自身が解説したものである。そこでは、ASが非申告所得の配分において錦の御旗のように掲げていたランダム監査データを使うことの問題点について指摘しているので、以下に紹介してみる。

John Iselin and I posted a comment on accounting for tax non-compliance when estimating top 1% income shares.
In doing so, we study the largest source of divergence between Auten & Splinter and Piketty Saez & Zucman's estimates since 1980.
Thread:
https://danreck.com/s/CommentAutenSplinter.pdf
tl;dr A&S assume unreported income is distributed like unreported income in random audit data. Such audits do not cover pass-through income, which ballooned in the top 1% after 1986, casting doubt on the dynamic decrease in inequality in their estimates due to unreported income.
Let’s start with Auten & Splinter's approach and consider a few stylized facts.
First, unreported income has grown as a share of national income since 1980. The increase is driven by “non-farm proprietor income,” i.e. unreported income of sole proprietorships and partnerships.
Auten & Splinter’s approach assumes that this component of national income is distributed like under-reporting detected in random audits.
Detected under-reporting is much less concentrated at the top than reported income: 11% versus 20% belongs to the top 1% in 2006-2013.
Since the 1980s, the top 1% share of income reported on tax returns has grown. This led Piketty & Saez to raise the alarm about rising inequality in 2003.
If the top 1% share has not actually grown much, as A&S claim, there must be a countervailing component of income.
A&S do not directly show that unreported income grows less concentrated over time. Rather, they use a microsimulation that imposes this on the basis of the above.
The result: their assumptions about unreported income pull estimated top 1% inequality down by 0.5 pp over time.
Using random audit data to allocate unreported income has intuitive appeal! These data, on audits of randomly selected tax returns, are used in IRS Tax Gap studies, and totals from these studies wind up in NIPA's estimates of National Income.
However, in recent years, only 1/3 of estimated total under-reporting in Tax Gap studies/National Income is actually detected during random audits. The rest comes from a statistical method for identifying undetected under-reporting called Detection Controlled Estimation (DCE).
Auten and Splinter's reliance on random audit data requires assuming 1) the 1/3 of under-reporting they observe in random audit data has the same distribution as the other 2/3, and 2) DCE does an equally good job identifying undetected under-reporting in the top 1% vs bottom 99%.
Empirical data cast doubts on these assumptions.
Most importantly: income from pass-through businesses is about 1/3 of all top 1% income, and under-reporting of pass-through income is not captured in the random audit data, due to audit procedures (Guyton et al, NBER WP).
Whether DCE is implicitly capturing some undetected under-reporting in pass-throughs is unclear, but regardless, the random audit data AS rely on cannot be representative of all under-reporting because pass-through income is not comprehensively examined and important at the top.
Pass-through income has also grown massively in importance and concentration since 1986, from about 10% of top 1% income in 1980s to over 30% today (see e.g. Smith et al 2019 QJE).
Implication: downward bias in A&S' estimates due to pass-throughs plausibly grows by 3x over time
There are other potential sources of bias in the use of random audit data, e.g. offshore tax evasion, changes to audit procedures/DCE methods. It is unclear how much these factors matter over time.
The bias we focus on is worsened by an error in A&S allocation of excess depreciation. They effectively impose that all non-farm prop excess depreciation belongs to sole props, not partnerships, which is unrealistic. This bias grows over time as excess dep. becomes more generous.
What about Piketty Saez & Zucman? Generally, when they have a component of income whose distribution is unobserved, they use the concentration that comes from reported income data. They allocate unreported proprietor income proportionally to reported positive proprietor income.
In other words, reported income is becoming more unequal, so they assume the same is true of unreported income.
However, PSZ do this allocation at the micro level. A&S argue that allocating no under-reporting to those reporting losses might over-state the increase in inequality.
We propose an approach imposing that the allocation of unreported income should be distributionally neutral by type of income. If the rate of mis-reporting of each type of income is constant between the top 1% and the bottom 99%, our approach will be unbiased.
We can also use our approach to decompose prior authors' disagreement into 1) whether reported incomes or random audit data are a better proxy for the concentration of unreported income, and 2) potential excess re-ranking in PSZ's micro allocation, as criticized by A&S.
The headline result: about 60% of the disagreement is due to (1), while the remainder is due to (2).
On (1), our views are more aligned with PSZ. The rise of pass-throughs plausibly influences the concentration of both reported and unreported pass-through income similarly.
On (2), we agree with A&S about the unrealistic features of PSZ's micro allocation, but we are less confident than A&S that this re-ranking effect definitely generates upward bias in the aggregate. Without e.g. good random audit coverage of partnerships, no one knows for sure.
Big picture: we caution against major revisions of one's beliefs about the dynamics of inequality in the US on the basis of AS’ assumptions about unreported income.
Meanwhile, PSZ’s assumptions are not definitively correct and may over-state the increase in inequality, but they have the virtue of ensuring that increases in observed inequality in reported income are not undone by how we account for unreported income.
But by the same token, PSZ’s estimates contain less new information than the analysis of reported incomes by Piketty & Saez (2003). So, we should not claim that PSZ “confirmed” the older findings of P&S without some qualifications.
For instance, if every component of national income were assumed to be distributed like reported incomes, it would be mechanical that PSZ and PS make similar findings.
Finally, we pose a methodological problem for the future:
If we observe y and want to estimate the top 1% share of z=y+e, what sufficient statistics about y & e should we estimate? Using formal models to answer this question would help us have this debate more scientifically.
(拙訳)
ジョン・イズリンと私は、上位1%の所得シェアを推計する際の非課税所得の計上についてコメントを投稿した。
そこで我々は、Auten & SplinterとPiketty Saez & Zucmanの1980年以降の推計の乖離の最大の原因について調べた。
https://danreck.com/s/CommentAutenSplinter.pdf
以下スレッド。
要約:A&Sは、非申告所得がランダム監査データにおける非申告所得と同じように分布していると仮定している。そうした監査は、1986年以降に上位1%で急増したパススルー所得をカバーしておらず、彼らの推計において非申告所得のために格差が時系列推移において減少したことに疑問を呈するものとなっている。
まず、Auten & Splinterの手法を見て、幾つかの定型化された事実を検討してみよう。
第一に、1980年以降、国民所得に占める非申告所得の割合は拡大した。この拡大は「非農業事業主所得」、即ち個人事業主とパートナーシップの非申告所得によるものである。

Auten & Splinterの手法では、国民所得のこの項目が、ランダム監査で検知された非申告所得と同じように分布していると仮定している。
検知された非申告所得は申告所得よりも集中度が低い。2006-2013年の上位1%への帰属割合はそれぞれ11%と20%である。

1980年代以降、税申告における申告所得の上位1%の割合は拡大した。これが、2003年にピケティ&サエズが格差拡大に警告を発することにつながった。
もし、A&Sが主張するように、実際には上位1%の比率がそれほど伸びていなかったならば、所得において拡大を相殺する項目があったはずである。

A&Sは、非申告所得の伸びにおいて集中度が低下したことを直接的に示していない。彼らは、上記に基づきそのことを条件として課したミクロシミュレーションを用いた。
その結果、非申告所得に関する彼らの仮定は、上位1%の格差を経時的に0.5pp引き下げた。

ランダム監査データを用いて非申告所得を配分するのは直観的にアピールする! ランダムに選ばれた税申告の監査に関するこのデータは、IRSの税ギャップ研究に使われており、それらの研究の総計はNIPAの国民所得推計にも反映されている。
しかし近年では、税ギャップ研究ないし国民所得で推計された非申告所得合計の1/3しかランダム監査では実際に検知されていない。残りは、検知コントロール推計(DCE)と呼ばれる、検知されない非申告所得を特定する統計的手法から来ている。
AutenとSplinterのランダム監査データへの依拠は、以下の2つの仮定を要件とする。1) 彼らがランダム監査データで観測した1/3の非申告所得が、残りの2/3と同じ分布をしている。2) 検知されない非申告所得を特定する上で、DCEは上位1%と下位99%について同等に機能する。
実証データはこれらの仮定に疑問を投げ掛ける。
最も重要なのは、パススルー企業の所得が上位1%の所得の約1/3を占め、かつ、監査手続きのせいでパススルー所得の非申告所得はランダム監査データで捕捉されない、という点である(Guyton et al, NBER WP*1)。
DCEが暗黙裡にパススルーの検知されない非申告所得を幾ばくか捕捉しているかどうかは不明だが、そうした部分的な捕捉のあるなしにかかわらず、ASが依存しているランダム監査データが全ての非申告所得を代表しているとは考えられない。というのは、パススルー所得は包括的に調査されておらず、かつ、上位所得では重要だからである。
パススルー所得はまた、1986年以降に重要性と集中度を大きく高めた。1980年代には上位1%の所得の約10%だったのが、今日では30%以上になっている(例えばSmith et al 2019 QJE*2参照)。
それが意味することは、パススルーによるA&S推計の下方バイアスが時間とともにおそらく3倍になったという見方が説得力を持つ、ということである。
ランダム監査データの使用には、そのほかにもバイアスの元となる可能性がある。例えばオフショアの税逃れ、監査手続きやDCE手法の変更などである。これらの要因が経時的にどれだけ問題になるかは不明である。
我々が焦点を当てたバイアスは、A&Sの過剰償却の配分誤りによって悪化している。彼らは事実上、すべての非農業事業主の過剰償却がパートナーシップではなく個人事業主に帰するとしているが、それは非現実的である。このバイアスは、過剰償却がより許容されるようになったことで、時間と共に大きくなっている。
ピケティ=サエズ=ズックマンについてはどうか? 彼らは全般的に、分布が観測できない所得項目がある場合は、申告所得データの分布を使っている。彼らは事業主の非申告所得を、申告された正の事業所得に比例する形で割り振っている。
換言すれば、申告所得の格差が拡大しているので、非申告所得も同じであろう、と彼らは仮定している。
だが、PSZはこの配分をミクロレベルで行っている。A&Sは、損失を計上しているところに非申告所得を割り振らないのは格差拡大を誇張していることになる、と主張している。
我々の提示する手法では、非申告所得の配分は、所得の種類について分布として中立であらねばならない、とした。もし所得の各種類について申告誤りの割合が上位1%と下位99%で同じであれば、我々の手法はバイアスを持たない。
また、我々の手法を使えば、両者のこれまでの不一致を、1) 申告所得とランダム監査データのどちらが非申告所得の分布についてより良い代理変数か、および、2) A&Sが批判したような、PSZのミクロの配分での再ランキングのやり過ぎの可能性、に分解できる。
主な結果:不一致の約60%は(1)によるもので、残りが(2)によるもの。
(1)については、我々の見解はPSZの方に近い。パススルーの台頭は、申告および非申告のパススルー所得の分布に同様に影響したと考えるのが尤もらしい。

(2)については、PSZのミクロ配分の特性の非現実的性について我々はA&Sに同意するが、この再ランキング効果が全体として上方バイアスを確実に生み出したという点についてはA&Sほど確信が持てない。パートナシップをきちんとカバーしたランダム監査などが無い限り、誰も確かなことは分からない。
総括:非申告所得についてのASの仮定に基づいて、米国の格差の動向についての考えを大きく修正することについて我々は警告を発する。
その一方で、PSZの仮定も確かに正しくなく、格差拡大を誇張している可能性があるが、申告所得の観測された格差拡大が、非申告所得の計上方法によって相殺されることはない、ということを確証したという利点がある。
だが、同じ理由で、PSZの推計は、ピケティ=サエズ(2003)の申告所得の分析よりも新たな情報が少ない。従って我々は、幾つかの但し書き抜きではPSZがP&Sの以前の発見を「確認した」と主張すべきではない。
例えば、国民所得のすべての項目が申告所得と同じように分配されると仮定するならば、PSZとPSが同様の結果になるというのは機械的な話である。
最後に、今後の手法面の課題を挙げておく。
我々がyを観測し、z=y+eの上位1%のシェアを推計したいのであれば、yとeのどのような十分統計量を我々は推計すべきなのであろうか? きちんと定式化されたモデルを用いてこの問題に答えることは、今回の論争をより科学的に行うのに有益であろう。