写在前面
刚入行做信贷模型的时候,最头大的不是写代码,而是开会。
业务方嘴里蹦出来的全是词儿:“这个月的 Vintage 翘尾了”、“M1 的 Roll Rate 怎么这么高”、“这几个变量的 IV 值虽然高但是 WOE 趋势不对啊”。当时我就在想,这帮人是不是在加密通话?
后来摸爬滚打几年,才发现这些所谓的”黑话”,其实就是把复杂的业务逻辑给标准化了。今天不聊复杂的算法公式,就聊聊这些术语背后到底代表了什么业务含义。这篇不是教科书,是我自己的一些理解和大白话翻译。
一、看资产质量,别只盯着逾期率
1. Vintage (账龄分析)
这词儿原意是”酿酒年份”。红酒讲究年份,信贷资产也一样。
通俗解释:把同一个月放款的客户当成”一批人”(Cohort),看看这批人随着时间推移,坏账是怎么长出来的。
为什么重要? 很多时候,整体逾期率低,可能是因为最近放款放猛了(分母变大了),掩盖了真实的风险。Vintage 能把每个月的放款剥离开来看。如果最近几个月放款的 Vintage 曲线比以前的陡峭(坏得更快),那就是风险预警信号,别管整体逾期率多好看,赶紧收紧策略。
2. Roll Rate (滚动率 / 迁徙率)
通俗解释:坏人是怎么变坏的。
信贷里我们把逾期状态分级:
- C (Current):正常
- M1 (Month 1):逾期 1-30 天
- M2 (Month 2):逾期 31-60 天
- …
Roll Rate 就是看,上个月处于 M1 的人,这个月有多少变成了 M2(更坏了),有多少回到了 C(从良了)。
实战意义: 如果 M1 到 M2 的滚动率突然飙升,说明催收可能出问题了,或者这批客户的还款能力真的不行了,催都催不回来。
二、做模型前的”算计”
3. WOE (Weight of Evidence) & IV (Information Value)
做评分卡(Scorecard)必不开这两个词。
WOE (证据权重): 简单说,就是把原始变量(比如年龄)转换成一种”风险值”。 比如”年龄”,原始值是 25 岁。转换成 WOE 后,可能变成 0.5。
- WOE > 0:这个分段的好人多(风险低)。
- WOE < 0:这个分段的坏人多(风险高)。
IV (信息值): 就是衡量这个变量到底”有没有用”。
- IV < 0.02:这变量基本是废的。
- IV > 0.5:太强了,强得有点可疑(是不是用了未来数据?)。
我的心得: 别光看 IV 高就用。我见过 IV 很高,但 WOE 呈现”波浪状”的变量(比如年龄越大风险忽高忽低),这种变量放进模型里就是埋雷。业务解释性永远比指标重要。
三、模型上线后的”体检”
4. KS (Kolmogorov-Smirnov)
做风控的人对 KS 的执念比 AUC 深。
通俗解释:模型把好人和坏人拉开距离的能力。 想象一下,好人是红豆,坏人是绿豆。模型就是个筛子。KS 越高,说明筛得越干净,红豆绿豆分得越开。
为什么不用 AUC? AUC 是看整体排序能力,KS 关注的是”最大差距”。在风控里,我们通常只关心头部(拒绝掉最坏的那批人)或者尾部,KS 在某种程度上更符合这种切断点(Cut-off)的决策逻辑。通常 KS 能达到 0.3-0.4 就算可用了,超过 0.5 就要怀疑是不是过拟合或者数据泄露。
5. PSI (Population Stability Index)
通俗解释:世界变了没有?
模型是基于历史数据训练的(比如去年的客户)。现在用在今年的客户身上,如果客户群体特征变了(比如以前都是上班族,现在全是大学生),模型可能就失效了。
PSI 就是衡量这种”变化”的。
- PSI < 0.1:稳如老狗。
- PSI > 0.25:变天了,模型得重训或者调整策略了。
实战坑点: 有时候 PSI 高不是因为客群变了,是因为前端产品改版了,或者某个渠道突然放量了。查 PSI 报警的时候,先去问问运营最近干了啥。
四、A卡、B卡、C卡
这不是扑克牌。
-
A卡 (Application Scorecard):申请评分卡。
- 场景:用户来申请借钱的时候用。
- 目的:决定批不批,批多少额度。
- 数据:只有用户的基本信息、征信报告等(因为他还没开始借钱,没有还款表现)。
-
B卡 (Behavior Scorecard):行为评分卡。
- 场景:用户借了钱之后,贷中管理。
- 目的:要不要给他提额?是不是该预警了?
- 数据:加上了用户的还款记录、消费行为等。B卡通常比A卡准,因为”听其言不如观其行”。
-
C卡 (Collection Scorecard):催收评分卡。
- 场景:用户逾期了。
- 目的:决定怎么催。
- 策略:评分高的(还款意愿/能力尚可),发个短信提醒下;评分低的(老赖),直接上强度。
五、特征工程:数据里的”炼金术”
很多新人以为做模型就是调包 XGBoost。其实量化风控 80% 的时间都在洗数据和挖特征。
原始数据往往是”死”的,比如”用户有一张信用卡”。 特征工程要把它变”活”:
- 他的信用卡额度使用率是多少?(负债压力)
- 他最近 6 个月申请了多少次网贷?(多头借贷风险)
- 他是不是半夜 2 点还在频繁通话?(作息不稳定风险)
好的特征(Feature)比复杂的算法重要一万倍。我们常说:“数据决定了模型的上限,算法只是在逼近这个上限。“
六、模型只是工具,策略才是灵魂
模型输出了一个分,比如 650 分。然后呢?这就轮到策略 (Strategy) 出场了。
-
Cut-off (切断点):定在 600 分还是 680 分?
- 定低了,通过率高,坏账也高(老板骂你风控不行)。
- 定高了,坏账低,但没业务量(老板骂你阻碍发展)。
- 这就是 Trade-off (权衡) 的艺术。
-
Risk-based Pricing (风险定价):
- 700 分的优质客户,给 10% 的年化利率,求他借。
- 600 分的次级客户,给 24% 的年化利率,覆盖潜在风险。
量化风控岗,最后拼的不是谁的代码写得溜,而是谁能用数据帮公司算清楚这笔账。
总结
做量化风控,懂业务比懂算法更重要。
XGBoost 调参调得再溜,如果不理解 Vintage 翘尾意味着什么,不理解为什么这个变量的 WOE 必须单调,那做出来的模型就是空中楼阁。
这些术语一开始听着唬人,其实都是前辈们在与坏账斗智斗勇中总结出来的经验。把它们吃透了,你看到的就不再是枯燥的数字,而是鲜活的人性和风险的流动。