百融金服副总裁陈浪仙:人工智能只能辅助,人与机器协同创造更大价值

2017年5月25日-28日,中国国际大数据产业博览会(简称数博会)在贵阳市举行。

百融金服副总裁陈浪仙出席了大会并进行了“大数据金融下的人工智能应用”的主题演讲,陈浪仙认为:

1)损失函数的定义和最优化是所有智能系统的核心;

2)成熟的人工智能风控引擎要具备的三要素:人工智能,大数据和云服务;

3)在金融领域人工智能技术并不能完全取代人工,人与机器的结合才能创造最大的价值;

百融金服,陈浪仙,数博会,大数据,人工智能,特征学习,风控云服务,百融金服

以下内容根据演讲速记进行整理(有部分删减):

大家好,我是来自百融金服的陈浪仙,非常荣幸今天有这样一个机会跟大家交流一下我们在金融风控领域做的一些关于人工智能方面的实践。在过去三年中,百融金服的智能风控引擎,利用机器学习和大数据已经为2千多家金融机构,每天规模超过30亿的资产提供信用风险和欺诈风险的识别判断服务。

刚刚很多嘉宾也提到了,人工智能、大数据怎么与产业相结合,从目前我们的实践来看,金融领域的这个结合是走得最快的。大家可以回想一下,三年之前我们面对的信用消费市场是怎么样的状况,办理信用卡,需要去柜台填写提交资料,一个月以后,信用卡的卡片才能拿到手。今天整个消费金融市场完全变了,大家可以随时随地在线上搜索金融服务提供商,在分钟甚至秒级内就可能拿到贷款。这个背后是如实现的呢?可以从一个月变到实时。这就是我今天分享的内容,主要分三个部分,一个是人工智能怎么工作的;第二部分就是我们百融金服智能风控引擎;最后就是我们的具体实践。

一、人工智能如何工作

刘慈欣,看过三体的朋友可能对这个名字很熟悉。不过今天我们要说的是他的另外一个短篇作品,《诗云》,故事描述的是一个技术水平可以碾压人类的智慧生命,为了证明技术可以超越人类的所有文学艺术创作,制造了一台机器来写诗,暴力穷举了所有文字组合,为了存储这些文字,整个太阳系都被从粒子级别重组成存储器,形成诗云。最终,最伟大的诗被创造出来了,只是无法被找出来。

今天,在所有人工智能领域,我们的所做的尝试在动机上跟这位高等智慧生命相似。试图让机器来思考完成复杂任务。但是我们有一个更有效的工具,损失函数。

损失函数定义了我们的手段与目标之间的差距,绝大多数机器学习过程的核心就是损失函数的最优化。

2017数博会-百度金服副总裁陈浪仙分享1

听上去可能比较抽象,举个例子,譬如整个贵阳的地形,如果我们能找到最低点,那里就是宝藏,在损失函数的最低点的模型可以对我们的问题有一个最完美的解释,现在所有的问题就是我们在没有地图的情况下怎么去找到最低点。有很多种方法去接近这个最低点,例如随机梯度下降,模拟退火等等。

2017数博会-百度金服副总裁陈浪仙分享2

最近大家可能被各种名词弄得有些困惑,例如机器学习,深度学习,人工智能等等。这一张图很好的说明了他们之间的关系,来自GANs之父 Goodfellow。最外圈是人工智能的定义,这个范围非常的广泛。任何可以自动化调整的系统都可以说是人工智能,专家系统、知识网络都可以涵盖在这个里面,再里面一层就是机器学习,机器学习的手段是以数据训练,让机器从数据中习得一个函数。机器学习里面又有一层就是特征学习,特征学习是对数据中的特征可以有更层次化,抽象化的描述。除了传统浅层学习,还有一个深度学习,就是多层神经网络。这两天alphago2.0与中国棋院的对决吸引了大众的关注,其核心的策略网络和价值网络正是深度学习训练的结果,深度学习直接引发了人工智能的再次复兴。

神经网络这个概念不算新了,最早的单层感知机,只能解决线性分类问题,随着反向传播和更多隐藏层的引入,神经网络可以拟合更加复杂的函数,由于新的预训练和正则化方法的发展使得更多层的神经网络应用变为可能,并在2012年在应用上实现爆发。

2017数博会-百度金服副总裁陈浪仙分享3

深度学习和以往有非常大的不一样,传统的机器学习的手段里面最多的工作就是在做特征提取和加工,机器学习听上去貌似将数据丢给机器自动就能得到结果,实则不然,从时间上来讲,还有80%的工作还是人工在做的。传统的机器学习更像是手工活,严重依赖于师傅的经验,同样的数据不同业务经验的建模工程师建出的模型,在效果上可能有非常大的差距。为什么深度学习受到业界的关注呢,因为深度学习可以自动提取数据中的层次化特征,自动化的提取和表达并加以应用。这就让原来人工做的事情真正可能由机器自动化完成,这个也是为什么深度学习在各领域里面突飞猛进的发展的原因。

二、智能引擎ABC

2017数博会-百度金服副总裁陈浪仙分享4

成熟的智能风控平台要具备的三要素:人工智能,大数据和风控云服务。

如果我们离开数据谈人工智能基本上可以判断是在忽悠,没有数据就没有智能。数据从何而来呢?需要通过云服务收集,云端的大数据经过人工智能的加工将应用的结果通过云服务返回终端用户,数据和模型就是在百融金服的智能风控引擎这个闭环里不断的快速迭代得到更加准确的预测结果。

2017数博会-百度金服副总裁陈浪仙分享5

这是我们内部的一个模型协同迭代的平台叫100Brains,将很多资深建模分析师头脑中经验和智慧在一个平台得到统一和协作,同时将人工和人工智能的产出进行流程化和自动化的整合。左下方是自动化的特征学习模块,使用了深度学习和非监督学习方法,让机器从数据中自动的提取特征,进入备选。中间的管道是流程化的进一步分析挖掘和自动化的调优,因为在金融领域里面,对模型的可解释性和稳定性有非常高的要求,所以人工目前还不能被完全替代,在这个平台上实现了人工和机器的结合,模型调优方案和入选变量的列表,进入知识库,让所有建模工程师的经验得到积累和交流,同时产出模型和规则。

最终平台产生的模型和规则,被应用到2000多家金融机构的在线的业务系统里面去,根据这些模型和规则在毫秒时间范围内判断一个贷款申请进来,这个进件是不是欺诈,如果不是欺诈信用风险如何,是否可以借钱,借多少钱。刚刚我们提到的每天超过30亿规模的资产都要通过这些模型和规则来流动。

三、相关应用实践

最后是我们的一些具体的实践案例,大数据,除了结构化的数据之外,还有很多非结构化数据,其中一个就是文本。我们将所有语料文本影射到一个空间,形成词和词的关联,可以看到非常有意思的特征。比如说我们形成的一些词簇,关联很近,都是跟金融相关的关健词,像借款、信贷员、利率、抵押品,这个过程不是由人工进行筛选的,而是经过模型,自动把这个词聚到一处,变成特征进入到模型。另外可以通过聚类找到一些敏感的词,将社交网络上的高危的人群找出来。

另外就是音频的,有的欺诈情况是冒用其他人身份来申请。比较成熟的解决方案是人脸识别和活体检验,但是今年315晚会大家都看到了,这个已经被欺诈团伙破解。可以在前期让很多人录这个视频或者实时贴图,基本上点点头,摇摇头,侧脸45度看。我们设计的方案就是音频的方式,让申请人读诵特征词,进行语音的识别和检验,以及声纹特征检索,在百万级的样板上可以做到85%的查全率,解决了很大部分的身份冒用欺诈问题。

还有就是在线学习的应用,模型上线了以后,随着客群的迁移和变化,人群特征会发生迁移,以前的模型的样本可能是在座各位这样的人群,过两月以后新的人群涌入了,新的特征在之前模型中没有体现,效果会变差,百融金服搭建了一个基于在线学习的模型在线调优和效果监控系统,可以随着表现样本的增加不断的完善预测结果,同时实现了模型的监控,模型开发之后很重要的工作就是监控,如果没有监控的话,这个模型就没有真正的实际投入到业务里面去。因为如果模型变化比较剧烈的话直接影响了前端业务员的饭碗,模型上下一个点的变化可能决定了上亿级别的资金的浮动,所以模型的监控到真正投产的时候是一个非常重要的事情。

我的分享就到这里,谢谢大家。

相关领域
商业