加载中...

信贷风控里的那些'黑话':从 Vintage 到 WOE,量化人必知必会

写在前面

刚入行做信贷模型的时候,最头大的不是写代码,而是开会。

业务方嘴里蹦出来的全是词儿:“这个月的 Vintage 翘尾了”、“M1 的 Roll Rate 怎么这么高”、“这几个变量的 IV 值虽然高但是 WOE 趋势不对啊”。当时我就在想,这帮人是不是在加密通话?

后来摸爬滚打几年,才发现这些所谓的”黑话”,其实就是把复杂的业务逻辑给标准化了。今天不聊复杂的算法公式,就聊聊这些术语背后到底代表了什么业务含义。这篇不是教科书,是我自己的一些理解和大白话翻译。

一、看资产质量,别只盯着逾期率

1. Vintage (账龄分析)

这词儿原意是”酿酒年份”。红酒讲究年份,信贷资产也一样。

通俗解释:把同一个月放款的客户当成”一批人”(Cohort),看看这批人随着时间推移,坏账是怎么长出来的。

为什么重要? 很多时候,整体逾期率低,可能是因为最近放款放猛了(分母变大了),掩盖了真实的风险。Vintage 能把每个月的放款剥离开来看。如果最近几个月放款的 Vintage 曲线比以前的陡峭(坏得更快),那就是风险预警信号,别管整体逾期率多好看,赶紧收紧策略。

2. Roll Rate (滚动率 / 迁徙率)

通俗解释:坏人是怎么变坏的。

信贷里我们把逾期状态分级:

  • C (Current):正常
  • M1 (Month 1):逾期 1-30 天
  • M2 (Month 2):逾期 31-60 天

Roll Rate 就是看,上个月处于 M1 的人,这个月有多少变成了 M2(更坏了),有多少回到了 C(从良了)。

实战意义: 如果 M1 到 M2 的滚动率突然飙升,说明催收可能出问题了,或者这批客户的还款能力真的不行了,催都催不回来。

二、做模型前的”算计”

3. WOE (Weight of Evidence) & IV (Information Value)

做评分卡(Scorecard)必不开这两个词。

WOE (证据权重): 简单说,就是把原始变量(比如年龄)转换成一种”风险值”。 比如”年龄”,原始值是 25 岁。转换成 WOE 后,可能变成 0.5。

  • WOE > 0:这个分段的好人多(风险低)。
  • WOE < 0:这个分段的坏人多(风险高)。

IV (信息值): 就是衡量这个变量到底”有没有用”。

  • IV < 0.02:这变量基本是废的。
  • IV > 0.5:太强了,强得有点可疑(是不是用了未来数据?)。

我的心得: 别光看 IV 高就用。我见过 IV 很高,但 WOE 呈现”波浪状”的变量(比如年龄越大风险忽高忽低),这种变量放进模型里就是埋雷。业务解释性永远比指标重要

三、模型上线后的”体检”

4. KS (Kolmogorov-Smirnov)

做风控的人对 KS 的执念比 AUC 深。

通俗解释:模型把好人和坏人拉开距离的能力。 想象一下,好人是红豆,坏人是绿豆。模型就是个筛子。KS 越高,说明筛得越干净,红豆绿豆分得越开。

为什么不用 AUC? AUC 是看整体排序能力,KS 关注的是”最大差距”。在风控里,我们通常只关心头部(拒绝掉最坏的那批人)或者尾部,KS 在某种程度上更符合这种切断点(Cut-off)的决策逻辑。通常 KS 能达到 0.3-0.4 就算可用了,超过 0.5 就要怀疑是不是过拟合或者数据泄露。

5. PSI (Population Stability Index)

通俗解释:世界变了没有?

模型是基于历史数据训练的(比如去年的客户)。现在用在今年的客户身上,如果客户群体特征变了(比如以前都是上班族,现在全是大学生),模型可能就失效了。

PSI 就是衡量这种”变化”的。

  • PSI < 0.1:稳如老狗。
  • PSI > 0.25:变天了,模型得重训或者调整策略了。

实战坑点: 有时候 PSI 高不是因为客群变了,是因为前端产品改版了,或者某个渠道突然放量了。查 PSI 报警的时候,先去问问运营最近干了啥。

四、A卡、B卡、C卡

这不是扑克牌。

  • A卡 (Application Scorecard):申请评分卡。

    • 场景:用户来申请借钱的时候用。
    • 目的:决定批不批,批多少额度。
    • 数据:只有用户的基本信息、征信报告等(因为他还没开始借钱,没有还款表现)。
  • B卡 (Behavior Scorecard):行为评分卡。

    • 场景:用户借了钱之后,贷中管理。
    • 目的:要不要给他提额?是不是该预警了?
    • 数据:加上了用户的还款记录、消费行为等。B卡通常比A卡准,因为”听其言不如观其行”。
  • C卡 (Collection Scorecard):催收评分卡。

    • 场景:用户逾期了。
    • 目的:决定怎么催。
    • 策略:评分高的(还款意愿/能力尚可),发个短信提醒下;评分低的(老赖),直接上强度。

五、特征工程:数据里的”炼金术”

很多新人以为做模型就是调包 XGBoost。其实量化风控 80% 的时间都在洗数据和挖特征。

原始数据往往是”死”的,比如”用户有一张信用卡”。 特征工程要把它变”活”

  • 他的信用卡额度使用率是多少?(负债压力)
  • 他最近 6 个月申请了多少次网贷?(多头借贷风险)
  • 他是不是半夜 2 点还在频繁通话?(作息不稳定风险)

好的特征(Feature)比复杂的算法重要一万倍。我们常说:“数据决定了模型的上限,算法只是在逼近这个上限。

六、模型只是工具,策略才是灵魂

模型输出了一个分,比如 650 分。然后呢?这就轮到策略 (Strategy) 出场了。

  • Cut-off (切断点):定在 600 分还是 680 分?

    • 定低了,通过率高,坏账也高(老板骂你风控不行)。
    • 定高了,坏账低,但没业务量(老板骂你阻碍发展)。
    • 这就是 Trade-off (权衡) 的艺术。
  • Risk-based Pricing (风险定价)

    • 700 分的优质客户,给 10% 的年化利率,求他借。
    • 600 分的次级客户,给 24% 的年化利率,覆盖潜在风险。

量化风控岗,最后拼的不是谁的代码写得溜,而是谁能用数据帮公司算清楚这笔账

总结

做量化风控,懂业务比懂算法更重要

XGBoost 调参调得再溜,如果不理解 Vintage 翘尾意味着什么,不理解为什么这个变量的 WOE 必须单调,那做出来的模型就是空中楼阁。

这些术语一开始听着唬人,其实都是前辈们在与坏账斗智斗勇中总结出来的经验。把它们吃透了,你看到的就不再是枯燥的数字,而是鲜活的人性和风险的流动。

Tong
Tong
© 2025 by Tong 本文基于 CC BY-NC-SA 4.0 许可 CC 协议 必须注明创作者 仅允许将作品用于非商业用途 改编作品必须遵循相同条款进行共享 最后更新:2025/12/1