聚信立罗皓:互金基于社交网络分析的风控才刚开始
本文为数据猿推出的大型“金融大数据主题策划”活动(查看详情)第一部分的系列征文/案例;感谢 聚信立创始人兼CEO罗皓 先生的投稿(罗皓专栏)
作为整体活动的第二部分,2017年6月29日,由数据猿主办,上海金融行业信息协会、互联网普惠金融研究院联合主办,中国信息通信研究院、大数据发展促进委员会、上海大数据联盟、首席数据官联盟、中国大数据技术与应用联盟协办的《「数据猿·超声波」之金融科技 · 商业价值探索高峰论坛》还将在上海隆重举办【论坛详情丨上届回顾】
在论坛现场,也将针对本次主题活动的投稿人,颁发“最佳商业洞察者”、“数据猿专栏最佳作者”两大类人物奖
来源:数据猿 作者:罗皓
近年互联网金融发展地如火如荼,借贷形式发生了天翻地覆的变化,新形势下各借贷机构的风险控制也面临着新的挑战,无论是技术还是思想都经历着革新。
新金融形势下风控面临的挑战
传统金融机构的风险管理,用申请人身份特征、借贷历史、央行征信报告等信息来评判个人信用等级,广泛用于贷款审批、贷后管理,并且也起到了不错的效果;随着互联网金融的快速发展,申请人借贷历史或央行征信报告等个人信息往往不能满足放贷机构的需求。
比如,在聚信立每天处理的60多万次借贷申请查询中,近30%的人即没有借贷历史,也没有央行征信报告。
这个群体对于借贷机构而言相当于“白户”,对这个群体的风控成了机构的一大痛点;另外,职业诈骗分子的“专业水平”越来越高,他们清楚地知道银行等借贷机构的审批条件,可以很好的伪造正常人的行为、习惯,机构单凭审核单个个体的行为数据很难区分出恶意欺诈。对于“白户”,以及团伙欺诈,社交网络分析都可以提供很好的解决方案。
社交网络分析方法概述
这里简要介绍一下聚信立的社交网络分析方法。聚信立处理了超过3000万申请人的查询申请,通过观察申请人及其联系人的联系网络,可构成一张覆盖申请人及其联系人在内的总共7亿人的巨大网络,同时覆盖90%以上借贷人群,如何能给这个庞大网络中的每个个体精准评分呢?
我们相信近朱者赤、近墨者黑的原则同样适用于借贷人群,本着这一理论基础我们衍生出了自己的基于社交网络的算法。
首先给出一些概念:
●X阶联系人:
联系人可分为直接和间接联系人,直接联系人是指和申请人有过直接通话记录的号码,我们称其为一阶联系人,间接联系人是指联系人的联系人,依次可以分为二阶联系人、三阶联系人等,显然直接联系人比间接联系人更能影响种子号码,越高阶联系人,影响力越弱。
●联系强度:
根据两个号码之间通话频次、周期性、主被叫关系等来判断两个号码之间紧密的程度,用于衡量两个人之间可以互相影响的程度。
●有效联系人:
联系强度达到某个特定值以上的联系人
●黑号个数/比例:
在某个特定网络中被标为黑名单的号码个数/比例
Google的PageRank是个很好的计算网页排名的算法,我们借鉴其能量传输的理念,并在此基础上做了些针对性的改进:对于联系人我们只考虑5阶以内,并对联系强度设定了阀值,只考虑大于特定强度的联系人,同时区分主被叫关系,在此条件下可以得到初始网络。
通过聚类、能量传输等模型把7亿人群分割成若干个子网络,然后计算各价联系人中黑号个数、比例、网络大小等指标,并根据联系强度等信息差异性赋权,最终得出每个号码和黑号的紧密程度。
社交网络分析的解决方案
前面提到金融借贷机构目前面临的两个难题:1)金融白户:无任何征信信息;2)团伙欺诈,下面分别看一下如何用社交网络分析方法来解决这些难题。
一、金融白户。这一类人没有自身数据,传统模型已失效。但近朱者赤、近墨者黑,在一个人的紧密朋友圈中,如果有些人借债不还,但并未受到应有惩罚,这种行为经常可以传递给其周边的人;同样好的行为也会传递。
我们相信,同一圈子里人的经济、生活状态往往趋于相近,信用等级也会趋同,对于白户,用其紧密朋友圈的数据填补其自身空白是个不错的选择。另外,根据一个人在某个子网络中的主被叫频次、比例等,可以计算出每个人在网络中的位置、影响力,进而得到其可以影响其他人的权重。
最终,我们用“白户”紧密联系人的加权信用等级来代表他自己的信用等级。这个方法在实战中得到了很好的验证。
二、团伙欺诈。现在机构面临的欺诈很多都是组织有序的团伙欺诈。他们一旦发现某些平台的风控漏洞,就会集中作案,以期短时间内获得巨额利润。
举个例子,聚信立的蜜蜂报告已被数百家机构采用,并广泛应用到风控流程中。有些犯罪团伙对放贷机构如何根据聚信立报告做审批有深入了解,就会伪装大量符合机构审批条件(如稳定的账单、合理的联系人个数、通话时长等)的个体进行骗贷。
从单个申请人看,很难发现其欺诈性。但如果看整个网络,就会发现某些圈子里的人的开户时间、联系人个数、通话时间、通话频率等方面都惊人的相似。类似的欺诈行为往往有相似的网络结构,比较容易判断这些号码是被一个团伙整体运作。通过计算特定网络内个体的同质性或高度一致性以及网络结构,来抓团伙欺诈就容易的多。
除了风控领域,社交网络也可以有广泛应用,如精准营销等,这不是今天话题的重点,就不再赘述。
大数据风控的发展方向
风控技术经过数十年的发展,无论是基于个人身份信息(如年龄、收入、职业等)还是个人设备信息(如使用手机、电脑的行为数据)的数据挖掘,都有了长足的进展,分析方法上,从评分卡、决策树到神经网络、机器学习,技术也日渐成熟;而基于社交网络分析的风险控制才刚刚开始,随着互联网金融的快速发展,团伙欺诈也日趋专业化同时迅速膨胀,社交网络分析结合大数据处理技术必将是应对新形势下欺诈的一个利器。
作者简介:
罗皓,聚信立CEO&创始人,湖南大学精算学学士。国立爱尔兰大学统计学硕士、中国第一批SAS认证统计师。曾任通用电气金融公司、渣打银行、Discover信用卡建模师、产品风险经理、数据挖掘主管等。超过10年数据挖掘及风险建模经验。
欢迎更多大数据企业、爱好者投稿数据猿,来稿请直接投递至:tougao@datayuan.cn