文档库 最新最全的文档下载
当前位置:文档库 › 软通动力-如何构建基于Ai的金融风控系统

软通动力-如何构建基于Ai的金融风控系统

如何构建基于AI的金融风控系统

构建基于AI的金融风控系统

背景:大数据时代,传统的金融风控方法已经难以适应

40万亿元(2019年)35%的信用覆盖率

消费信贷●中国的消费信贷市场从2015年20万

亿元,到2019年将达到40万亿元,而征信覆盖率并没有保持与市场规模的同步。

●消费金融领域只有35%的客户是有

征信记录的,剩下65%没有信用记录,所以并不能用传统、成熟的风险评估方法去评估这些人的风险。

挑战:大数据时代,金融风控之痛

数据层面

风控决策低效耗时,员工成本很高,坏账率则更高。

价值困境:意识到大数据的价值,但不知如何从数据中挖掘有用的信息。●

高维困境:对于65%未被传统征信覆盖的人群来说,他们的特征维度非常高,会产生上千维变量,那该如何处理高维特征?如何将其融合?

敏捷困境:技术发展的同时,欺诈演变速度也非常快。单一的个体欺诈也正在演变成有组织、有规模的群体欺诈。

1.多源异构数据难以融合;

2.

数据模式动态变迁困难,当客户新需求、业务新认知时程序员需痛苦的

修改数据结构及业务逻辑,带来扩展性差、对客户响应慢、维护成本高等不良情况。3.

非结构化数据计算机难以理解;

4.数据使用专业程度过高:复杂的检索代码、传统关系型数据库。

5.

分散的数据难以统一消费利用。

战略:构建基于AI 的金融风控系统

上千维度的变量映射到用户

全域金融知识图谱

高价值金融属性的特征

特征引擎规则引擎

典型引擎日志与监控

深度学习特征提取

--风控引擎--特征模型

大数据风控信用流量运营

信用流量增值

全域互联网行为高价值黑名单

第三方征信交易数据

运营商工商法院申请资料申请资料图片

全域金融大数据

数据采集

数据融合与知识图谱构建

深度学习特征工程与风控模型集成

风控应用

数据接入

业务赋能

业务知识输入

知识融合实体对齐

实体融合

只是获取

D2R 知识建模

文本抽取冲突管理

知识更新

图谱构建层

解析清洗数据整合

数据处理层

智能问答资源标引

推理可视化分析

图计算语义计算

关联探索

语义搜索应用能力层

计算能力层

专家先验知识

行业积累知识

智能推荐/搜索/问答

反欺诈

企业信用评估

业务文档自动写作

合规自动检查

社交网络分析法规与案例搜索产业链智能分析

跨市场对标

………..

大数据平台主题数据

历史数据实时数据第三方数据

金融AI 风控系统构建步骤(1):全域金融知识图谱构建

知识图谱--重新定义数据架构体系,快速实现金融AI 全域金融知识图谱的价值:解决“金融风控”数据层面的挑战

金融AI 风控系统构建步骤(2):基于深度学习的特征工程

1.数据量大,维度很高是消费金融风控必然会遇到的实际问题。此外,还会遇到很多非结构化数据,例如文本、图像等。这些都不是传统征信会遇到的问题,而这些必须借助深度学习得以解决。

2.

深度学习的本质是特征学习的过程。对于人工难以加工的海量非结构化数据,基于深度学习的特征生成框架自动生成特征,能够弥补人工定义特征的局限性。

样本特征网络设计●

样本特征工程维度初设机器调参

机器组合算法

全量数据特征工程(机器)

(>200个)

数据ETL 机器建模

数据向量化

1新数据机器打标签

机器训练模型

2

3

数据源

神经网络算法、模型构建与训练

文本历史数据

时序实时数据

专家经验

?超越人工定义的深度以穷尽风险:解决“金融风控”技术层面的挑战

通过复杂的词向量模型将文本转化为词向量,结合卷积神经网络提取向量空间中关系,特征提取过程完全是黑盒

,自动生成抽象脱敏的特征表征

?金融风控过程中其实会遇到很多这样的非结构化数据,比方说申请资料的文本信息,或者是经过授信和合规要求的通讯文本。对于这些

文本的分析,通过NLP领域的CNN。而在金融场景中也能提取一些特征。如果这些特征能进入接下来的分类网络中去,它也可以去学习到好人或者坏人的特征。

?实践的第一步是文本数据预处理,提取分词或者是关键词,并将每一个词做向量化的表示,然后这些向量化表示会进入一个卷积神经网

络,并从这个卷积神经网络中去提取特征。下一步,这些特征会进入一个全连接的神经网络去学习分类,做成分类器。

合并学习不同周期和时序模式的循环神经子网络,有效捕捉时序数据的特征隐含信息及不同时序模式下的协同影响

?在实际应用中,时序类特征可能是通话记录或者交易记录,所以它的特征不只是在一个阶段面上去提取,还在时间轴

上去提取。

?金融场景中,我们把通话记录分成了不同的周期,按照不同的周期构建了三个LSTM子网络,并且会对这三个时序模式

LSTM子网络做一个混合,这样能大大减少时序数据分析和提取特征的工作量。

深度学习特征工程示例3:融合机器和专家经验,实现全量价值提取基于深度学习操作系统,使用不同网络结构拟合不同的数据类型,自动从大量庞杂非架构化数据中生成高质量的深

度学习特征,并与专家人工特征结合共同融入模型

?我们相信专家多年积累下来的成熟的风险评估方法也很有效。

?基于深度学习的特征智能生成框架,使用不同网络结构拟合不同的数据类型,自动从庞杂、非结构化的数据中生成

高质量的深度学习特征,并且与专家人工特征结合共同融入模型。融合特征才会交给下一步模型去学习。

金融AI 风控系统构建步骤(3):集成模型,实现AI 与业务深度结合

不同维度/领域的数据具有不同的特点,需要使用不同的建模方法,集成学习框架可以支持不同类型模型算法作为子模型单独领域的子模型可以快速迁移应用到新业务领域,实现快速成型和持续优化。

欺骗侦查违约等级……..

集成学习模型

集成模型

借贷历史Rules

消费偏好GBDT

公共信用DNN

互联网风

险DNN

………..

Others

模型层

互联网行为申请资料通讯数据信用报告

数据源

金融风控系统构建后:业务逻辑示例

数据源特征提取工程金融画像风险评分业务场景

基于AI 的风控系统技术架构

知识图谱构建系统

深度学习操作系统

AI 服务器(GPU&CPU 计算矩阵)

全域金融知识图谱

特征引擎规则引擎

典型引擎日志与监控

风控引擎

特征工程

硬件配置

软件部署

技术实施

产品

开发

异构数据源

总结:从数据到金融AI魔术的全过程

?从脏数据变成干净数据:至少10万行以上的代码,比如说一些扫描件就

是脏数据,至少一些文本数据是干净的,比如说有了文本,有段落划分

了,句子划分好了,表格提取出来了,这就变成一个很干净的数据了。

?实体提取:公司、人名字、一些产品、行业,产品和产品之间的关系等

等这些实体。

?知识图谱:比如说全球产业链,美国和中国公司之间的对标,新三板公

司投资标的的可能性等等,这些加在一起就是所谓实体和实体之间的关

系构成的一个图谱。

?业务逻辑:比如说行业的逻辑,看每一个行业,我们都会看不同的指标

,有不同的增长率,还有业务的逻辑,比如说做并购有并购找壳的指标

,比如说做监管有监管的逻辑,加在一起就是一层一层的,每一层比上

一层难。

?金融AI:这并不意味着我们要把所有的事情全部做了以后,然后才能去

变金融的魔术。因为基本上每一个层次都可以加速人和机器的协作.

应用场景:平台类/业务类

?在金融风控中用到的数据还

是很多的,包括历史积累数据、实时数据、第三方数据

。分类方法当然有很多,但数据格式、结构都会完全不一样。

?如果构建到统一的金融图谱

当中去,对于下游的特征加工和模型其实会有很大帮助。对于数据库某一个数据结

构的依赖就不是那么强,我

们只要优化金融知识图谱的知识结构,工作中的相关问

题都可以得到解决。

平台类应用场景(1):基于全域金融知识图的数据平台

模型应用

金融画像

全局数据治理

数据处理与集成异构数据源

平台类应用场景(2):基于“金融大脑”构建银行信贷平台

知识图谱构建

系统数据仓库

深度学习操作

系统

集成模型

业务应用场景1:企业风险评估

基于企业的基础信息、投资关系、诉讼、失信等多维度关联数据,利用图计算等方法构建科学、严谨的企业风险评估体系,有效规避潜在的经营风险与资金风险。

客户资源分类管理

信贷前期风险评估

采购企业风险审核

招投标企业资质评级

:企业社交图谱查询业务应用场景2

基于投资、任职、专利、招投标

、涉诉关系以目标企业为核心向

外层层扩散,形成一个网络关系

图,直观立体展现企业关联。

相关文档
相关文档 最新文档