大公信用数据有限公司

行业动态

运用AI创建信用风险预警模型

阅读:
发布时间:2018-09-18 16:26:09

  为了贯彻落实国务院办公厅关于积极推进供应链创新与应用的指导意见,大公国际信用评级集团重点打造“十大数字评级技术产品”之一供应链金融信用管理系统,推动供应链金融生态体系的创新与发展。供应链金融信用管理系统是一个以丝路互金网平台为载体,以供应链信用评级为核心,以信息实时监控、信用风险预警为特色,以供应链业务场景为需求来源,将高信用级别的核心企业作为信用担保方,将大中型商业银行作为资金方,为供应链上下游企业提供应收账款融资、订单融资、预付账款融资以及存货质押融资四类融资方式,高效解决供应链上下游企业各种融资需求,具备提供多行业、多链条、多场景供应链金融服务的信用管理系统。

  供应链金融服务的信用管理系统实现三方面的管理:实时监控、风险预警和信用监理。实时监控为用户提供监控中心,可以实现对供应链商流、物流、信息流、资金流以及人员流信息的监控,可以一眼浏览供应链中的信用链、债务链、股权链。风险预警是系统设计的一种主动风险防预机制,通过对一些关键风险指标进行风险临界值设置,当实时数据波动触及临界值,系统会发出报警信号,第一时间让用户获取风险揭示。信用监理是为日常信用管理而设计的,由专门的信用监理员对整个供应链信用情况进行日常管理工作,具体内容包括现场巡视、数据核实、问题排查和风险报告。

  具体包括如下子产品:供应链信用认证;供应链信用评级;供应链融资交易;供应链数据采集;供应链实时监控;供应链风险预警。该产品主要帮助供应链条中的中小企业解决融资问题,并实现全程供应链信用管理。本文重点介绍一下金信系统中运用人工智能创建预警模型对企业及个人用户画像。

  一、需求分析

  (一)需求产生的背景:要解决的问题

  用平台类公司打造供应链金融生态圈来举例说明, 例如XX商城运营以租金服务为主,涉及箱包、外贸、服装批发等领域。商城希望共同合作开发新型融资方式,为商户扩宽融资渠道,满足其融资需求。

  大公数据供应链金融部课题组与XX商城共同开展供应链金融信用管理体系建设,大公根据商城和商户的情况为商城构建定制版信用管理系统,帮助商户挖掘信用价值、高效满足商户融资需求、有效控制供应链业务信用风险、提高供应链金融信用管理水平。

  (二)问题解决思路:“三步走”策略

  第一步,构建融资案例,采集实时数据,积累历史数据。

  构建信用预警模型的数据主要来源于商户申请融资时提交的材料、商户日常运营交易数据、第三方征信机构的可靠数据三大来源。采集完成后,由数据人员对数据进行预处理。

  第二步,制定风控标准,创建风控模式。

  通过前台征审人员等具有实际业务经验专家进行业务方面的考量和科学统计方面的分析,研究并制定风控标准和相关信用系数指标,进而利用逻辑回归、线性回归等统计方法和类神经网络、基因算法等非统计方法创建智能风控模型。

  第三步,定制化供应链金融信用管理系统建设。

  模型建立完成后可对系统模型进行效力验证,利用K-S值及基尼系数检测商户好坏分布差距,并检验模型预测稳定度。

  模型效力达标后,即可开始建设供应链金融信用管理系统。

  (三)建模终极目标:达到既定效果

  一方面是对申请商户进行评分,预测初始信用好坏。资金方(银行)在对商户进行初始融资或授信时需要了解其基本信息、信用行为、贷款情况等综合信用状况及等级,金信系统可以快速给出商户当前资信情况并推荐客观合理的授信及放款额度。

  另一方面则是对商户融资过程行为进行评分,预测违约率。放款后,资金方(银行)、商城以及平台需要实时追踪并了解商户的融资款使用情况和交易经营请款等,判断其经营是否顺畅,是否有可能发生逾期等违约行为,金信系统通过采集客户的商流、物流、资金流、信息流、人员流等五流信息综合分析,测算每个商户的违约率,并给出授信方面相关建议。

  二、数据分析与建模

  图1:数据分析与建模步骤

  (一)多维度、多指标的数据采集

  原则上,尽可能多地获取客户信息采集源,从客户各个方面,例如经营状态、交易数据、融资情况、贷款违约记录等多维度全面考察一个用户的信用风险状况。在采集数据的过程中,每个维度尽可能收集更多、更全面的指标数据为后期数据分析提供充足准备。

  (二)数据分析

  围绕具体的风控目标,通过对不同维度的数据进行研究分析,最终确定哪些数据指标与预测风控目标具有明显的与实际业务经验一致的关系;再通过围绕具体的建模目标,使用统计分析、聚类、关联、异常检测、时间序列、路径分析、漏斗分析等不同的维度进行数据研究分析,最终确定用于建模的特征标签宽表,以及目标标签的算法。

  特征标签宽表是可能和我们的建模目标有因果关系的指标集合,为下一步建模提供样本数据。

  (三)数据预处理

  并非所有采集来的数据皆可纳入模型开发样本,在筛选合格样本时,首先需透过数据核验摒除有瑕疵的样本,其次则需设定属于“不予评分”或“政策拒绝”等项目的排除条件。

  有八种数据处理方法,可以应对庞大的大数据应用规则。

  图2:数据预处理的方法

  1、 缺失值的常见处理方法

  (1)丢弃

  当样本量比较大时,不完整记录比较少的时候,就可以丢弃。

  (2)补全

  当样本量少且采集代价比较大时,采用这种方式,常用方法,统计法(均值、加权均值、中位数、众数等),模型法(使用模型预测缺失值),业务专家补齐等。

  (3)真值转换

  将缺失值的存在看做一种数据分布规律,例如转换前:客户性别(男,女,未知),转换后:性别_男(1,0),性别_女(1,0),性别_未知(1,0)。

  (4)不处理

  有些模型算法能够自动地处理缺失值。

  2、 异常值的处理

  (1)判别是否是伪异常

  例如,某一次大的促销活动会带来销量的异常,但这显然是伪异常,它是实实在在的业务数据。

  (2)通过算法进行异常检测

  常用Z_SCORE这种简单的算法来判别。

  (3)包容异常值

  有些模型算法能够自动地处理异常值。

  3、 重复数据处理

  (1)检测业务规则是否存在问题

  (2)可能是用于解决样本不均衡,使之故意重复

  4、 分类数据转换为标志变量

  为什么要转换?因为机器只认识数值变量,最好是0,1这样的标签,不同算法对数据的表现形式有不同的要求。

  5、 数据的降维

  在宽表中给定的数据包含了方方面面的特征,这些特征可能是无用的,可能相互之间有强关系的,这些都要去除。

  常用方法有:

  (1)统计方法:皮尔逊相关性。

  (2)模型方法:比如随机森林,通过信息熵,计算出变量的重要性,去掉不重要的。

  6、 解决样本不均衡问题

  样本不均衡指样本中正负样本比值很多或很小。尤其是某个特征的样本过少可能会造成模型不够准确,这样的话就需要采用抽样的方法进行样本的补充。

  常用的方法有:

  (1)过抽样

  就是在样本很少的时候,添加或者复制样本,比如两类样本分别为100个A类和10个B类,那么为了保证A,B这两类样本平衡,可以复制B类使得样本和A类一样。

  (2)欠抽样

  欠抽样就是将A的样本减少到和B类一样。

  (3)对正负样本进行惩罚权重

  (4)组合集成抽样

  7、数据抽样

  当用户有海量数据时,比如 1个亿,则计算资源不足以因应,所以需要抽样。

  (1)简单随机抽样

  是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。

  (2)分层抽样

  是指从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取样品(个体)的方法。

  (3)等距抽样

  是指先将总体的全部单元按照一定顺序排列,采用简单随机抽样抽取第一个样本单元(或称为随机起点),再顺序抽取其余的样本单元。

  (4)整体抽样

  是指将总体分成许多群,每个群由个体按一定方式结合而成,然后随机地抽取若干群,并由这些群中的所有个体组成样本。

  8、数据标准化

  数据标准化就是为了让量纲一致。如果不同指标量纲差很多比如收入是上万甚至上亿,利率是零点几,这样如果做回归的话 他们前面的系数大小会差很多,可能就不能通过系数判断到底哪个指标对被解释变量更重要了。

  让数据落入相同的范围,解决变量处于不同纲量的问题,比如存款余额可能是百万级别的,年龄一般不超100这样的数据,模型算法没有办法统一处理,解决这类问题常用的算法有:

  (1)实现归一化的Max-Min

  (2)用于稀疏数据的MaxAbs

  (3)实现中心化和正态分布的Z-Score

  (4)针对离群点的RobustScalar

  (四)人工智能建模

  建立模型可运用的方法非常多,如判别分析、线性回归、逻辑回归及分类树等统计方法;或是类神经网络、基因算法及专家系统等非统计方法。

  在实务运用上,选择线性回归或或逻辑回归来建构评分模式,在模式实行上成本较低也较快速,是模型研发人员最常选用的方法。

  以下为智能建模基本步骤:

  1、根据预处理好的样本数据利用算法进行模型训练。

  2、评估模型性能。

  3、根据模型评估结果调整参数。

  4、迭代进行2到4步骤。

  5、输出模型系数。

  6、根据模型变量,模型系数,目标变量建立模型。

  三、模型验证与优化

  模型建立完成后的验证可分为样本外验证和时间外验证,前者使用保留样本,后者则使用建模样本期间之外的案件已进行测试。

  除了测试样本外,模型效力评量指针也可分为区分度与稳定度两大类:

  区分度指模型对好坏客户的辨识能力,区分度越强,表示模型准确性越高。常见的区分度指标有K-S值和基尼系数。

  稳定度是指可衡量测试样本及模型开发样本评分的分布差异,也是最常见的的模型

  以上介绍的各项指标不仅用于建模时期验证模型效力,未来上线之后每月也需定期监控模型区风力及稳定度表现,如发现指标背离理想值,则需进一步了解各个变量是否出现异常,并作出进一步调整。(文/孙妍)