というNBER論文が上がっている(ungated版)。原題は「Credit Scores: Performance and Equity」で、著者はStefania Albanesi(マイアミ大)、Domonkos F. Vamossy(ピッツバーグ大)。
以下はその要旨。
Credit scores are critical for allocating consumer debt in the United States, yet little evidence is available on their performance. We benchmark a widely used credit score against a machine learning model of consumer default and find significant misclassification of borrowers, especially those with low scores. Our model improves predictive accuracy for young, low-income, and minority groups due to its superior performance with low quality data, resulting in a gain in standing for these populations. Our findings suggest that improving credit scoring performance could lead to more equitable access to credit.
(拙訳)
信用スコアは米国で消費者債務を割り当てる際に極めて重要であるが、そのパフォーマンスについての利用可能な実証結果はあまり存在しない。我々は幅広く使われている信用スコアを消費者の債務不履行の機械学習モデルで評価し、特に低スコアの人について、借り手の顕著な誤判別があることを見い出した。我々のモデルは、低品質データについての優れたパフォーマンスにより、若くて低所得のマイノリティのグループについて予測精度を改善し、そうした人々の立場にとって利益となる。我々の発見が示すところによれば、信用スコアのパフォーマンスの改善は、信用へのより公平なアクセスにつながる。
導入部では以下のようなことが記されている(表などは本文から補完)。
- フェア・アイザック(Fair Isaac Corp)が最初の信用スコアを1958年に導入し、幅広く使われているFICOスコアを1989年に開始した。FICOスコアと2006年に開始されたバンテージスコア*1が最もよく使われている。
- 消費者金融保護局の推定によれば消費者の11%にはスコアが無く、そうした借り手は若くて低所得のマイノリティに偏っている。
- 2007-2009年の住宅危機の際には、高スコアの人の住宅ローン不払いが大きく上昇し、当時のスコアがそうした借り手の債務不履行確率を正しく反映していなかったことを示した。
- 今回の研究によれば、信用スコアは、実際の債務不履行確率からしてそぐわない人をリスク分類に割り当てることによって、消費者の41%を誤判別している。
- 誤判別は低スコアの人についてより深刻で、サブプライム借り手の47%、ニアプライム借り手の70%が誤判別されている一方、スーパープライムの借り手の誤判別は26%に留まった。
- 信用スコアの平均AUCスコア*2は約85%で、2007-2009年の危機時には顕著に落ち込んだが、自分たちのモデルは約91%で、時系列的に安定していた。
- 借り手の2割を占めるサブプライム信用スコアの借り手のうち、自分たちのモデルによれば22%がニアプライム、15%がディープサブプライムに分類される。
- 信用スコアのディープサブプライム、サブプライム、ニアプライムの実際の債務不履行率はそれぞれ68%、44%、22%だった。一方、各リスク分類内での自分たちのモデルと実際の債務不履行率の乖離は5%ポイント以内に留まった。
- 信用スコア会社は、信用スコア変動の最も重要な4つの要因を報告することが法律で義務付けられているが、それは負債額、負債の組み合わせ、新規借り入れ、信用履歴の期間であった。自分たちのモデルでは負債額に49%、負債の組み合わせに5%、新規借り入れに5%、信用履歴の期間に8%のウエイトを置いたが、信用スコアではそれぞれ38%、10%、10%、15%であった。
- 機械学習のような技術を導入すると若くて低所得のマイノリティに不利に働くのではないかと懸念されたが、結果はむしろ有利に働いた。