关于信贷评分卡模型,看这篇就够了!

这篇具有很好参考价值的文章主要介绍了关于信贷评分卡模型,看这篇就够了!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

风险并不是所有人都能轻松看到,信贷公司同样如此。

8月4日下午15:00,顶象研发总监就评分卡模型展开分享,详细介绍了评分卡模型的原理、评分卡模型的构建过程、评分卡模型的开发投产以及顶象的评分卡模型实践。

评分卡模型原理

通常来说,我们把贷款分为抵押贷款和信用贷款。抵押贷款顾名思义需要贷款人以抵押物作担保向银行贷款,对银行来说这是一种“有保障”的贷款,而信用贷则不需要提供抵押或担保,仅凭自己的信誉就能取得贷款,这也在一定程度上加大了信用贷的利率和风险。

因而,信用贷对于金融机构和借贷公司来说是一个不小的风险。

那么,如何帮助金融机构和借贷公司来规避风险呢?业内的有效解决方法是建立评分卡模型来帮助金融机构和借贷公司来评估借贷人的风险。

评分卡模型是常用的金融风控手段之一,诞生于上世纪50年代,由FICO公司开发,经历了70多年依然在信用评估中不可替代,几乎每一家金融公司都在用评分卡模型来评估风险。

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

其原理是根据客户的各种属性和行为数据,利用信用评分模型,对客户的信用进行评分,从而决定是否给予授信,授信的额度和利率,减少在金融交易中存在的交易风险。

按照不同的业务阶段,可以划分为三种:

贷前:申请评分卡(Application score card),称为A卡;

贷中:行为评分卡(Behavior score card),称为B卡;

贷后:催收评分卡(Collection score card),称为C卡。

如何构建评分卡模型?

首先我们来初步认识下评分卡。

评分卡分为离散特征(性别、婚姻状况、学历)和连续特征(年龄、月收入),其中年龄和月收入又进行字段细分。

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

要构建一个评分卡,需要以下几个步骤:

首先是数据准备。一般来说,构建评分卡可用的数据也分为三类:

即个人在金融机构的账户与行为数据,包括交易行为、日常消费、存款信息、投资理财、逾期信息等;

个人在中国人民银行的征信报告,包括个人近5年内,在国内留下的所有信用信息、家庭住址、工作单位、配偶信息、手机号、公积金、社保信息、信贷记录、房贷车贷记录、历史逾期信息、违法行为、征信查询信息,基于人行征信,可以衍生出 “上千维” 特征,足以构建一个效果非常不错的贷前评分卡;

第三方公司提供的个人信用分,诸如芝麻分、微信支付分、京东信用分、百融分等。

本质上来说,中国人民银行的征信报告好于金融机构的账户与行为数据好于第三方公司提供的个人信用分。

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

其次是数据探索,包括数据的缺失情况、直方图分布、最大值、最小值、均值、分位数。

然后是数据预处理,包括数据清洗、缺失值处理、异常值处理。

特征筛选,通过统计学的方法,筛选出对违约状态影响最显著的指标。主要有单变量特征选择和基于机器学习的方法。

分箱,包括变量分段、变量的WOE(证据权重)变换和逻辑回归估算三个部分。

模型评估,评估模型的区分能力、预测能力、稳定性,并形成模型评估报告,得出模型是否可以使用的结论。

生成评分卡(信用评分),根据逻辑回归的系数和WOE等确定信用评分的方法,将Logistic模型转换为标准评分的形式。

建立评分系统(布置上线),根据生成的评分卡,建立自动信用评分系统。

最后通过评分卡模型收集违约信息,进行效果监控。

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

那么,如何对特征进行分箱(区间划分),为什么要分箱?每个分箱的得分,怎么确定的?

WOE、IV、PSI、KS,它们有什么含义?

我们先来看分箱。

分箱是对特征变量进行区间划分或者对不同枚举值进行合并的过程,它可以降低特征的复杂度,提升变量可解释性。

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

分箱的两个功能:

拆分:对 “连续变量” 进行分段离散化,使它变成 “离散变量”。比如:年龄、月收入。拆分分为等频拆分、等距拆分、信息熵分箱。

以信息熵分箱为例,这是一种监督的拆分方式,可衡量好坏样本的区分度。其方法是先对特征所有值进行排序遍历特征所有值 (连续值需要进行细粒度分组),以每个值做为划分点,计算 “条件熵”,选择 “条件熵最小” 的特征值作为分割点,将数据分成两部分,设置一些停止条件,重复以上步骤。

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

合并:减少离散变量的状态数,对 “离散变量” 进行合并。比如:地区、学历。合并又分为卡方检验和WOE值。

以卡方检验为例。卡方检验是一种假设检验方法,先提出两个变量没有相关性,然后对数据进行抽象证明他们是否有相关性。根据卡方检验的计算公式对比实际频数和理论频数是否具有显著差异,卡方值越小,实际频数与理论频数就越接近,也就证明卡方检验成立,也就可以证明分组与分类不相关。

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

每个变量的分箱数,控制在十个以下,通常 5个左右是最佳的;分箱越多,模型过拟合的风险越高,模型的稳定性也会变差,在金融场景,风险可控与稳定至关重要。

WOE (Weight of Evidence) 是判断 “一个分箱区间”,区分好坏样本的能力。

其公式如下:

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

IV (Information Value) 是计算各分箱区间的 WOE 加权和,可以衡量 “一个特征”,区分好坏样本的能力。

其公式如下:

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

但事实上,分箱方法很多,顶象实现了一种简单可行的全自动分箱方法。

对于连续变量,可先进行等频拆分得到细分箱,对于离散变量可直接认为是细分箱,然后进行WOE合并,每次合并WOE值最接近的相邻细分箱或离散值,同时要满足以下条件:

1、每个分箱至少包含 5% 的样本;

2、每个分箱必须包含 正常样本与违约样本;

3、分箱数控制在 5个左右;

4、除了 age 外,其他变量尽可能保持单调性。

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

值得注意的是,特征分箱并不是完美的,但总体来说利大于弊。

比如连续变量分箱、离散变量合并,会 “降低特征变量的复杂度,降低模型过拟合的风险”;可以 “增强模型的稳定性”,对特征变量的异常波动不会反应太大,也利于适应更广泛的客群;将特征变量划分为有限的分箱,可以 “增强模型的可解释性”;可以更自然地将 “缺失值作为单独的分箱”。

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

目前,主流的评分卡模型仍以逻辑回归模型为主要模型。假设客户违约的概率为p,则正常的概率为1 − p。由此可以得到违约几率:

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

评分卡是 “将Odds赔率的对数,转变为分值的线性函数”,表示如下:

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

为了确定公式中的A与B值,需要定义2个条件:

1、基准分 P_0 ,在Odds赔率为 θ_0 时的得分 (例如,赔率为 1:50 时,基准分为 500)

2、PDO (point of double),Odds赔率翻倍时减少的分值 (赔率为 1:25 时,减少 20)

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

评分卡设定的分值刻度可以通过将分值表示为几率对数的线性表达式来定义,即:

A和B都是常数且(a>=0, b>=0)。当希望违约几率越低,得分越高时,取负号。通常情况下,这是分值的理想变动方向,即高分值代表低风险,低分值代表高风险。

逻辑回归算法相比于其他算法更优,一方面是因为其“可解释性强,易于理解”,可以追查每个变量的得分,变量的权重也可以从业务视角去交叉验证;一方面是其“简单,稳定”可配合分箱可以进一步增强稳定性,分箱本身也一定程度上解决了部分非线性问题;并且“易于跟踪,排查问题”,当模型衰退、客群发生变化时,通过分箱的 PSI 与 IV 可以快速定位出问题的原因。

评分卡模型如何评估、应用、跟踪?

评分卡模型评估分为效果评估和稳定性评估。

先来看效果评估。

模型输出的每个评分值,都可以作为阈值。如果小于阈值,我们可以预测为“违约”,如果大于等于阈值,则可以预测为“正常”,根据每个阈值,可以计算出混淆矩阵,然后根据混淆矩阵我们可以进一步计算出违约比率或正常比率,进而得出KS曲线或者ROC曲线。

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

其中,KS曲线具备对好坏样本的区分能力,如果KS值小于0.20则不建议采用,大于0.75则可能存在错误。

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

但需要注意的是,单独从KS训练样本评估出的KS值还不足以评估模型的好坏,一定要做长期的验证来证明KS值是稳定的,确保模型在验证集上的 KS 与 训练样本上的 KS,不出现大幅度下降,如果下降幅度超过10% (比如: 训练集 KS = 0.50,4个月后 KS_4 = 0.45, 下降幅度为10%),说明模型衰退明显,也就进一步说明其稳定性是有问题的。

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

接下来看下稳定性评估。

PSI (Population Stability Index)称为群体稳定性指标,用来 “对比2个数据集的分布,是否发生比较大的偏差”,对比一定要有参照物,对评分卡模型来说,参照物是模型训练时的 “训练样本” (期望分布),而评估对象称为 “验证样本”(实际分布)。

PSI 越小则说明稳定性越好,如果PSI大于0.50则需要进一步分析特征变量。

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

PSI 可从两个计算维度来看,即评分 PSI和特征变量 PSI。

评分 PSI对 “模型的输出分值” 进行分箱,在验证集与训练集上做 PSI 对比,判断是否发生大的变化。如下图,期望分布代表训练集,实际分布代表验证集。

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

特征变量 PSI对 “入模的每个特征变量” 进行分箱,在验证集与训练集 上做 PSI 对比,判断是否发生大的变化。

同样的,PSI 也需要做跨期验证。确保 “评分值、每个特征变量”,在近N个月的验证集上,对比训练集计算出的PSI,在可接受的范围内。

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

接下来看下模型的应用。

当模型评估合格后,此时我们需要权衡违约率与通过率,确定自动通过阈值。如果阈值在0.2%~0.8%之间则可自动通过阈值,如果在0.8%~3.0%之间则需要人工审核阈值,如果大于3.0%则会直接拒绝。

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

评分越高,违约率与通过率也是逐步提升,此时我们就需要权衡违约率与通过率,设定阈值来区分样本好坏。

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

最后我们来看下模型跟踪。

当模型应用后,可能会出现衰退甚至不可用,其原因主要有三:

一是客群变化:模型开发阶段选取的人群,与应用阶段的人群,发生大的偏差。业务在应用的过程中,有可能在某个渠道引入新人群。

二是特征变量的含义或加工逻辑发生变化:入模的特征变量,在某个时间点,技术人员不小心更改了字段的加工逻辑,比如:字段的时间窗口,过滤条件等逻辑变化。

三是社会环境发生变化:同样的客群,在不同时期不同的社会经济环境下,模型的效果表现可能也会不同,比如:新冠疫情、俄乌冲突等社会问题,会导致经济衰退、失业率升高,进而影响客户的还款能力。

而发现模型衰退时,可通过 “评分 PSI” 可以发现问题,但其根本原因是特征变量,模型监控与分析,一定要深入到 “特征变量”,通过 “特征变量 PSI” 找出根本原因 。

模型跟踪也分为PSI 和KS。

PSI 可做月度监控,当月的 “申请样本” 与 “模型训练样本” 进行对比,计算出 “评分PSI” 与 “每个特征变量的PSI”。

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

同样的,KS 也可做月度监控:收集月度内的 “申请样本” 以及 “违约标签”,计算出 “评分KS” 与 “每个特征变量的IV”。

建设银行评分卡信贷模型,业务安全,网络,网络安全,业务安全

整体来看,评分卡模型是统计学的创新应用,分箱与WOE编码降低了数据的复杂度,降低了特征的灵敏度,提升了模型的稳定性,同时可进行跨期验证,确保验证模型的长期稳定可靠,并且具备配套的跟踪监控体系,根据评分PSI、参数PSI、评分KS、参数IV快速分析模型衰退的原因。

下期我们业务安全大讲堂将由顶象技术总监杜威为大家带来《业务安全平台核心模块解析——设备指纹》的主题课程,敬请期待!文章来源地址https://www.toymoban.com/news/detail-526420.html

到了这里,关于关于信贷评分卡模型,看这篇就够了!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 测试基本理论-看这篇就够了

    软件测试(Software Testing): 在规定的条件下对程序进行操作,以发现程序错误,衡量软件质量,并对其是否能满足设计要求进行评估的过程。 【系统软件】:如操作系统、数据库管理系统,各种驱动软件等; 【应用软件】:如Office、有道翻译、QQ等; 【单机版本】:如Office,

    2024年02月06日
    浏览(49)
  • 面向对象编程,看这篇就够了

    面向对象编程,是一种程序设计范式,也是一种编程语言的分类。它以对象作为程序的基本单元,将算法和数据封装其中,程序可以访问和修改对象关联的数据。这就像我们在真实世界中操作各种物体一样,比如我们可以打开电视、调整音量、切换频道,而不需要知道电视的

    2024年02月05日
    浏览(79)
  • 倾向得分匹配只看这篇就够了

    倾向得分匹配模型是由Rosenbaum和Rubin在1983年提出的,首次运用在生物医药领域,后来被广泛运用在药物治疗、计量研究、政策实施评价等领域。倾向得分匹配模型主要用来解决非处理因素(干扰因素)的偏差。 ‍1、基本原理——反事实推断 基本原理是 :根据处理组的特征,

    2024年02月05日
    浏览(47)
  • Redis基础命令汇总,看这篇就够了

    本文首发于公众号:Hunter后端 原文链:Redis基础命令汇总,看这篇就够了 本篇笔记将汇总 Redis 基础命令,包括几个常用的通用命令,和各个类型的数据的操作,包括字符串、哈希、列表、集合、有序集合等在内的基本操作。 以下是本篇笔记目录: 通用命令 字符串命令 哈希

    2024年02月04日
    浏览(50)
  • 自学黑客(网络安全)看这篇就够了

    写了这么多编程环境和软件安装的文章,还有很多小伙伴在后台私信说看不懂。我都有点头疼了,但是小伙伴们求学的心情我还是能理解,竟然这么多人给我反馈了,那我就再写一篇网络安全自学的教程吧!大家耐心看完,后面有惊喜。 一、自学网络安全的误区和陷阱 1.不要

    2024年02月06日
    浏览(60)
  • TensorBoard最全使用教程:看这篇就够了

    机器学习通常涉及在训练期间可视化和度量模型的性能。 有许多工具可用于此任务。 在本文中,我们将重点介绍 TensorFlow 的开源工具套件,称为 TensorBoard,虽然他是TensorFlow 的一部分,但是可以独立安装,并且服务于Pytorch等其他的框架。 TensorBoard 是一组用于数据可视化的工

    2024年01月17日
    浏览(48)
  • idea自动生成代码--看这篇就够了

    目录 1、idea安装插件 2、连接数据库  3、生成代码 打开idea设置,查找mybatisX插件 1. 打开idea右侧database 2. 创建数据库连接 点击database后,弹出database框,点击左上角的“+”号  3. 填写数据库连接信息  填写自定义名称、数据库连接地址、端口号、用户名、密码。第一次配置时

    2024年02月12日
    浏览(49)
  • 用户订阅付费如何拆解分析?看这篇就够了

    会员制的订阅付费在影音娱乐行业中已相当普及,近几年,不少游戏厂商也开始尝试订阅收费模式。在分析具体的用户订阅偏好以及订阅付费模式带来的增长效果时,我们常常会有这些疑问: 如何从用户的整体付费行为中具体拆解订阅付费事件并分析? 想要了解当前应用内

    2023年04月25日
    浏览(48)
  • Linux ps命令详解,看这篇就够了

    ps 是一个在 Unix 和 Linux 系统中常用的命令,用于查看当前运行的进程的状态。 -e :显示所有进程。 -f :全格式显示。 -l :长格式显示。 -a :显示终端上的所有进程,包括其他用户的进程。 -u :显示进程的详细状态。 -x :显示没有控制终端的进程。 -T :显示当前线程的层

    2024年03月20日
    浏览(68)
  • 纯小白如何进入游戏行业?看这篇就够了!

    游戏行业 一直都是一个非常 受欢迎的高薪行业 (高薪行业排名TOP.2) ,前景无量,市场广阔,发展迅速。 特别是在近年的 疫情大环境 下,游戏市场更加展现出了势头猛冲的劲儿。 潜力代表企业一览 数据来源:财经十一人 全球游戏市场玩家规模逐年稳步上升 ,游戏行业

    2024年02月10日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包