度小满杨青:以贷养贷不会被发现?大错特错,时序网络助力风控升级 | AICon

作者|杨青编辑|李忠良随着大数据与人工智能的引入,金融风控领域出现了很多探索与创新。就在QCon全球软件开发(北京站)2021,我们邀请到了度小满数据智能部总经理,技术委员会执行主席杨青分享了度小满在金融领域的实践,本文是杨青的分享整理文稿,希望对你

度小满杨青:以贷养贷不会被发现?大错特错,时序网络助力风控升级 | AICon

度小满杨青:以贷养贷不会被发现?大错特错,时序网络助力风控升级 | AICon

作者|杨青编辑|李忠良

  随着大数据与人工智能的引入,金融风控领域出现了很多探索与创新。就在QCon全球软件开发(北京站)2021,我们邀请到了度小满数据智能部总经理,技术委员会执行主席杨青分享了度小满在金融领域的实践,本文是杨青的分享整理文稿,希望对你有所启发~

  今天我将分享三方面的内容:信贷风控流程、模型效果的四大挑战以及度小满风控创新式探索。

  风控流程包含贷前、贷中以及贷后三部分。

  从模型角度来看,风险端涉及贷前、贷中、贷后三大信用评分。除此以外还有很多辅助模型提升风险识别能力,反欺诈模型、预授信模型、预催收模型等等。

  从经营侧角度来看,除了关注风险之外,金融公司还需要关注盈利性、用户的满意度等。

  在贷前阶段,定价需要关注用户对利率的敏感性,定额需要关注用户的资产情况;在贷中阶段,流失率是需要着重关注的指标,这里会涉及流失模型、Offer满意度模型等等。

  1风控模型四大挑战

  复杂场景下的智能金融风控挑战有以下四类:数据孤岛、非结构化信息、复杂模型的可解释性以及内外部场景个性化建模。

  在数据孤岛方面,我们知道做大数据信贷风控,最理想的情况是能够拿到用户的准确用户画像,了解到用户的资产情况。

  比如用户的月薪、是否有车、是否有房和股票基金、历史的借贷行为以及交易流水等等。

  但是现实情况下获取全部数据比较难,绝大部分公司仅仅通过查询征信报告来进行授信,很多数据可能需要从外部获取,但是数据监管越来越严格,跨行业的数据交换越来越难。

  数据隐私保护出现之后,联邦学习是一种很好的解决方式。数据无需出狱,仅仅交换模型的参数,就可以保证模型的效果。

  征信报告还存在非常多的非结构化信息,这些信息为提升模型带来了非常大的挑战。

  首先是一些家庭住址、公司地址等文本信息,如何去处理?

  其次是图网络信息,在征信报告中,我们可以看到人与地理位置之间的关系、企业的人和人、公司和公司之间的关系,这些关联网络的信息怎么去挖掘?

  再有是时序信息,它也是另一类非结构化信息,负债敞口的变化、整体额度授信场合的变化、用户还款行为的变化等等都是值得挖掘的信息;

  另外在信贷经营过程中,公司会有很多与用户交互的信息,比如电销、信审以及催收的时候,存在非常多的语音交互信息,它里面存在非常多有价值的信息,如何挖掘和利用也是很大的挑战。

  在复杂模型的可解释性方面,我们之前使用的客户特征大概只有十几维,单个特征与模型结果是强相关关系。我们很容易获得用户信用分较低的具体原因。

  但是现在模型的参数非常多,特征数量也非常多,单个特征对于最终结果的影响非常微弱,解释性比较差。

  我们以xgboost为例,一个模型可能存在几百个数组,当我们建模时,每次都是优化已有结果与目标结果值来决定,这种残差的优化方式,使xgboost模型效果具有很好的区分度。

  但是当我们建了第一棵树之后,再接着建第二棵树的时候,还会使用已有的特征来选择新分类节点。

  因此一个特征出现在决策树模型的多棵树中,我们就很难解释最终的结果。

  大家可能计算xgboost模型特征重要度,但是这仅仅得到模型本身的特征重要度排序,我们无法应用具体到一个案例,无法解释单个个体是否降额、升额的原因。

  业务模型非常多,度小满有数千个模型,我们研发AutoML来助力建模,从特征管理、算法选择、模型的自动调优上线都使用AutoML,一些简单模型完全实现了自动化。

  对于一些复杂的模型,通过AutoML也能达到往往比人工还好的效果。目前在度小满,所有模型上线之前必须要通过AutoML机制。

  2如何处理非结构化信息?

  上述的每一项挑战都是非常大的话题,这次分享我将会聚焦在如何处理非结构化信息挑战。

  每家金融公司的数据源都不一样,但是唯独征信报告都一样。我把度小满征信报告的解读技术,拆分成了4个阶段。

  首先是专家经验阶段,这一阶段主要是依赖于工程师对金融业务的理解,人工地添加一些特征;

  其次是人工特征衍生阶段,通过一些统计编号的方法,将特征进行衍生,特征数增加到了几千维;

  接着是机器自动衍生阶段,可以达到30万维以上;

  最后是中台阶段,我们将所有的NLP、知识图谱等算法集成起来,提供一体化的服务。

  专家经验阶段人工特征衍生阶段,其实主要依赖于人工经验。比如,当我做一个风控算法,风控算法的目标就是判断一个人是否会逾期?

  我们会关注用户的还款意愿和还款能力,大家通过经验来增加一些变量,通过这些变量建模,来达到一个比较好的效果。

  当我做征信模型的时候,可能更关心Offer满意度和用户借贷需求。在用户满意度方面,用户的借款账户在我司,是不是主账户?有多大的余额敞口等?

  如果用户有30万的授信额度,其中18万是度小满的,那我们就相对比较满意。

  在用户的借贷需求方面,用户流失是否因为产品不满意?还是因为没有需求而流失的?这里面会涉及信用卡的审批次数、借贷频次等变量。

  这类基于人工经验的情况,对模型统计学要求比较高,需要我们对这个业务有洞察,工程师需要做大量的业务理解和特征工程工作,并且最终得出的特征系统完备性明显不足。

  在征信机器自动衍生阶段,我们观察上图右侧的征信范式框架。征信报告里有非常多的细粒度原子操作,通过最大化地刻画这些细粒度,可以使原子操作之间进行各种交叉组合。

  交叉组合之外,特征维度可能达到了几千万维,其中有大部分是稀疏和无效的。

  我们会通过一些模型,通过分布式训练框架,训练一些有间隙度的模型出来,然后通过特征重要的排序。

  我们最终挑选出了30万维的有价值变量,这些变量大概可以覆盖95%的业务需求,大大减少人工特征加工的工作量,提升了我们的效率,而且在模型效果上面也有明显的增加。

  那么对于征信4.0阶段,我们发现征信报告还有非常多的有价值信息,我们通过NLP、图网络等模型,将征信的特征算法进行了打包,整个过程相当于一个中台服务

  我们内部有一个聚焦于征信报告全方位解读的小组,专门提供最准确的客户画像,为各种金融业务线赋能。

  地理信息挖掘与自监督学习应用

  首先是地理信息挖掘应用。用户的稳定性是非常重要的策略因素,如何从征信报告里架构好这个变量?

  左上有一个表格,这是征信报告的一个原始信息,用户填写了三个信息,福州市闽侯区上甘镇五虎路、福州市闽侯区青口镇沪屿街、厦门市思明区民族路。

  当我们对应到右边,进行特征统计的时候,数据无法对齐。

  征信报告的信息都是用户自己填写,它存在各种省略的情况,也会存在错别字,所以首先我们需要进行PY数据归一化。

  从省、市、区、县完全归一化之后,我们可以对居住地信息进行稳定性加工,比如用户的城市数、区域数、同一个区域居住时长。

  对于征信报里面的公司名、行业以及工作地点也可以做同样的事,首先进行数据规一化,之后就可以进行特征的衍生与加工。

  其次是自监督学习的应用,通过自监督学习征信报告的内在语言关系,建立高容错的、可迁移的模型,可以大幅度地提升业务效果。

  所有的金融公司申请未通过、申请通过未用信的人占据大多数,但是这两种人也有征信报告,只是这样的报告是没有label的,我们无法知道用户是否会逾期。这种数据占了90%以上,当我们在建模的时候,大部分的无标数据都被浪费了。

  度小满通过自监督学习的方式使用了这些数据,一方面,我们对用户画像(例如学历)进行Mask,通过征信报告的其他信息,自监督地预测学历情况;

  另一方面我们对用户信贷的时序,进行统一的向量表达,减少一个特征维数,因为把之前没有使用到的信息使用起来了,业务获得了巨大的收益。

  时序网路的探索

  征信报里面有非常多的时序信息,例如贷款记录、中文信息、贷款机构、放款日期、本金输入类特征,针对不同的特征,需要进行不同的处理。

  例如,对文本进行Transformer,累加上时序以及数类特征进行融合,把所有的一条序列按时间排序,加上Time的标签,最后进行多头注意力机制,通过时序网络了解到细粒度的时间变化趋势。

  上图右方是一个时序模型发现以贷养贷的案例。

  客户在2007、2008年分别有2000的农户贷款;2017年有的授信额度,在2017年后面有一笔16万的预授信,当前使用14万;在2018年又发放8000额度的贷记卡;到2019年申请了两笔个人消费贷,并进行了消费贷分期。

  如果基于特征加工方式的话,从客户无违约、最高授信十六万元等情况,无法看出有什么异样。

  在我们的普通模型中这位用户信用较为优良,但实际上此用户在2020年5月31日存在一次逾期。

  再分析一下刚刚的案例,我们可以着重关注以下几方面的信息。

  首先用户虽然无违约记录,但结合农户身份、10年来信息比较缺失、信贷资金使用率比较高等,我们感知到用户风险较大;

  其次较为关键的是贷记卡金额转到消费贷,并且当消费贷转移完之后,用户还进行了较长期数的金融分期,这说明了用户的还款压力非常大。

  上述案例告诉我们,通过这样的时序网络可以非常细致地观察到用户的时间变化趋势,能够更好地发现这种潜在的风险行为。

  针对不同的时序行为,我们都做了同样的处理,并且在多种时序特征表达之上,我们进行了模块交叉,多头注意力机制,然后通过这种方法,我们希望能获得不同时序行为之间的关联关系。

  通过时序行为变化,其实可以发现一些比较好玩的事情。

  上述右图是一位历史无违约的用户,在2019年9月有三笔应还账单,大概分别是4437、、5300元,然后在同期此用户分别借了元的小贷和8000元的消费金融贷款,

  我们可以观察到新借款的金额与待还款金额,在同一时间,额度非常接近,我们判定他是一位以贷养贷用户。

  后来通过我们的电话调研,确实发现他存在以贷养贷行为。我们通过上述的时序关联关系,发现很多这样的潜在风险。

  图模型发展与探索

  接下来分享图模型发展在征信报告中的实践应用,征信报告中有非常强大的关键网络的关系,我们将它用在信用风险评估上。

  图模型是比较相对中等功能的异构图,有用户节点、公司节点、位置节点以及节点与边的关系,通过异构图的挖掘,我们能够发现很多问题。

  比如说某一个用户可能是优良的人,但它所关联的公司里面有很多逾期的人,这里边存在很大的风险。

  我们之前发现过一个案例,用户所在公司里面存在大量的违约人员,原因是这个公司进行吸储放贷,员工将自己的钱存储在公司,公司支付其较高的利息。

  很多员工会为了赚钱,然后通过借贷赚息差的方式盈利,最后这家公司暴雷,逾期的用户非常多,通过这种关联关系挖掘就可以识别这种情况。

  3未来展望

  首先是预训练模型深度应用,征信报告里存在大规模无标签的数据,通过预训练模型学习提升模型的信息提取能力;

  其次风险模型本质是一个排序模型,之后我们会将逾期的先后顺序纳入模型;

  第三是异构图的挖掘,这里还有非常多的算法可以尝试;

  第四是多份征信报告的挖掘,如果用户是老客户的话,生命周期比较长,会涉及很多份征信报告,我们需要针对多次查询的征信报告学习差异信息;

  最后是模型的可解释性,我们需要优化对复杂模型的归因方法,提升模型的实用性。

  以上就是我今天的分享,谢谢大家。

  4活动推荐

  11月5-6日,AICon全球机器学习与人工智能大会(北京站)2021设置了【NLP技术与应用】专题,度小满技术委员会执行主席杨青担任专题出品人,我们一起邀请了业界四位NLP专家,为你分享NLP在各大厂的实践。

  除去NLP专题外,还有人工智能前沿技术、通用机器学习技术、计算机视觉实践、智能金融技术与业务结合、推荐广告技术与实践、AI工程师团队建设与管理、认知智能的前沿探索、AI与产业互联网结合、大数据计算和分析、大规模机器学习算法及应用、智能语音前沿技术应用、大规模预训练模型进展、自动驾驶技术等,共14个专题。

  更多精彩议题敬请期待!

  目前大会门票限时特惠中,购票欢迎联系票务小姐姐文柳:(电话同),点击底部【阅读原文】可以了解更多大会信息。

度小满杨青:以贷养贷不会被发现?大错特错,时序网络助力风控升级 | AICon

免责声明:本站部分内容和图片转载自互联网,该文观点仅代表原作者本人,文章内容仅供参考,不构成建议,也不代表本站赞同其观点。详情参阅本站的“免责声明”栏目。

相关内容

推荐阅读

发表评论

版权声明:本站部分内容和图片源于互联网,本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。转载文章版权属于原作者所有,若有权属异议及违法违规内容请联系我们删稿。详情参阅本站“版权声明”及“举报投诉”栏目。

猜你喜欢