天云大数据雷涛:致力于大规模AI生产,让企业获取机器智能像读书一样简单
“算法到底能干什么?只是提高效率、降低成本吗?算法更多是改变我们商业实践的结构,每一次技术的前进和迭代,都应该很快普世化。技术不应该固化阶层,AI和机器之能,应该像读书一样简单。”
6月8-9日,2018华映资本年度大会在上海举行。国内唯一能够同时提供分布式计算平台产品和AI平台基础设施的科技厂商天云大数据CEO雷涛在大会上做了主题为《人工智能的大规模生产》的演讲,为AI“袪魅”,解读如何推动人工智能规模化生产的浪潮。今年上半年,天云大数据完成由华映资本、曦域资本领投的亿元人民币融资,致力于打造AI生态中的“Android”平台 — MaximAI,降低企业使用门槛。
雷涛指出,目前扩展AI应用面临挑战:日益增长的需求,稀缺的供给导致高昂的AI成本,在这个领域,需要出现一个类似于“Android”的通用人工智能平台,让AI应用不再是少数大公司和精英科学家的专利。当每个人都开始可以访问AI服务,才是真正变革的时刻。解决这个难题,需要三方面能力:
1、融合计算能力:从并行计算到分布式计算的创新;
2、融合在线数据:从流程驱动到数据驱动的创新;
3、融合业务价值:从零到一的创新。
以下为雷涛在华映年会上的演讲实录:
各位好,我是天云大数据雷涛。刚刚上台前,主持人铺垫了一个问题,AI背后的AI是什么,今天在这里做《人工智能的大规模生产》的主题演讲,首先第一个关键词就是为AI“祛魅”,让AI不再神秘。天云大数据所做的工作就是推动人工智能规模化生产这样一次浪潮。
如今谈AI,人们喜欢把它当一个标签贴在各自的行业里。大众眼里的AI就是像终结者一样,无所不能;媒体眼中的AI是AlphaGo,具有颠覆和革新的意义;资本眼里的AI,更多是在人脸识别、无人驾驶、聊天机器人等,已经爆发出产业价值的应用。
然而,真正在产业里AI改变了什么?其实它已经落地并具备高度场景化趋势天云曾给银行做一个催收业务系统的数据回滚,要根据违约用户的标注和数据进行训练审批模型,让审批更为精准,提高效率,降低风险。在这样的实践中,每天要出100多万个催收卡片,训练强度已经超过AlphaGo。
AI在一些成熟的行业里已经开始实质性的落地。AI本质上是机器学习,发展了几十年,当下由于数据和算力的驱动更为普及化。面对这种普及化我们需要做什么?哪些行业会被更多地替代?商业实践将怎样被重塑?这是值得思考的问题。
从IT到DT
(Information Technology to Data Technology)
所有商业实践都会被重塑
我想分享这样一个逻辑,大家现在看到的AI可能更多是实验室里的一些应用,但在看不到的地方,它已经改变很多商业流程,以前基于经验、规则抽象出来的商业逻辑正在被扁平化,被算法替代。
如今很多人都在讲零售,零售其实是一个经验和规则导向的行业。买一瓶矿泉水要从超市入口走进去,从超市的出口走出来,要走过长长的货架。啤酒在哪里,尿布在哪里,生鲜品在哪,快消品在哪儿,这些实践和商业规则构建了整个商业帝国。
电子商务阿里系要面对4亿商品和9亿SKU的选择,规则穷尽的时候怎么办?一个简单的方法就是:先验概率和后验概率推荐,基于点击流把后台结果推荐出来,算法扁平化所有的商业实践。这样的案例如今非常多,IT流程导向的商业开始被算法所替代,就是我们看到的IT向DT的迭代。
Information Technology和Data Technology,从Information到Data,处理的东西开始低级化,意味着需要更强的能力,这个就是算法。算法和人工智能的表达开始提炼出人类抽象不出来的商业事实,就像AlphaGo,它输入的数据非常简单,只有黑白落子,人脸识别的像素也只有三个通道,RGB在这个像素上的填充,只是简单的输入,但是它所描述的问题确实我们人类语言失效的内容,什么是大局观,什么是棋风,每一步落子都通过Deep Learing精确地表达出来,这种表达能力构建商业世界的场景和案例。
下一个独角兽在哪里?从IT到DT转型,数据资源是最大的场景。我认为,下一个独角兽将出现在机器生产数据的范畴里。数据资源有三个方面:
第一,是Transaction data,应用生产数据。大家都在想共享、获取这部分的黄金价值,这里面出现了大公司,如IBM、甲骨文。
第二,是Engagement data,人生产数据。比如谷歌、BAT、Facebook。
第三,是Observing data,机器生产数据。如手环、IOT、低速物联网。大规模的传感器数据只能用机器学习的方法来赋予机器智能。我相信未来的巨大的体量的公司,应该是出现在这个领域里。
AI大规模生产挑战在于成本
生态需要“Android”
新技术从诞生到大规模量产都经历过漫长的发展历程,比如现在看到的手机,它在1983就出现了;第一部电动汽车出现在1888年,是一辆直流电池电动车,这种新的技术会对整个社会产生一个更深刻、更普遍意义上的变革,但这种变革往往都会经历一个漫长的演变周期,过程主要挑战在于成本。需求增长与供给稀缺,导致成本高昂。
1、日益增长的需求
现在大量的科技内容,都有从IT向DT的转型诉求,都希望能够拥有能力,把以前经验导向的一些过程转换成由机器自动化处理的能量过程。这个需求非常巨大,300%增长的需求。
2、人才供给稀缺
德勤在2016年有一份报告,写的就是斯坦福、MIT这些毕业的学生98%被Facebook、谷歌招揽,基本数据人才已经被集约化放到一些大型体量的公司。现在一个AI工程师年薪是30万美金/年,而正常的美国平均薪酬只是8万多。
所以摆在我们面前的,是需求增加,供给稀缺,产生了非常昂贵的成本问题。如何破解这个难题?Tools scale Talent,其实就是一套工具。工具的出现是一个产业快速走向产业化的过程。
蒸汽机是瓦特在英国发明的,而真正的产业化出现在洛杉矶,是将蒸汽机装在木船上,也就有了轮船业,有了后续的发展。今天如何把算法的实践变成一个产业实施能力,我们看现在的AI工具,现在的AI工具偏向实验室,目前的AI工具仅仅是AI系统的一个极小部分。
此图来自谷歌AI负责人,他所描述的方向是,现在开源的工具主要训练的内容只是整个AI产业里的一个非常局部的点,只发生在中间,从数据采集、特征工程的处理以及算法的评估,以及信息的最终提交部署,这条线只涉及冰山一角,所以很难用现有的开源工具去覆盖大规模的AI生产。
我们的观点是,AI生态需要“Android”。
为什么提Android?我自己的从业经历恰恰经历了这15年的变化。2002年曾出现一个重要项目叫OTA,也就是手机APP。当时人们讨论的是计算器、贪吃蛇、俄罗斯方块这样简单的应用,而绝非今天我们手机里的应用模块。这些应用当时全部在大公司的实验室里,必须有原生操作系统才能做出这样的应用,要从底层写到适配,在实验室里一步一步做出来。两年以后,2004年,出现了一个简单易用的平台,Android。
Android出现以后,才有了移动互联网15年来的巨大爆发。如今三四个人的大学生创业团队可以短时间开发一个移动应用。AI行业也需要有自己的“Android”实现这一转变。
如今在AI行业里,问题局限在已经出现的垂直应用上,人脸识别,聊天机器人等等,大量的商业实践需要被通用模式解决。如何去定义AI领域里的“Android”,是行业里迫切要解决的问题。
天云大数据在这一领域发力比较早,天云2016年推出了融合Algorithm、Bigdata、Cloud的MaximAI企业级人工智能平台产品,主要致力于解决企业化的通用人工智能,做得就是把算法自动化,而且免代码。业务人员通过配置可以使用Deep Learing,能够使数据供给在核心的算法上,基于平台的算力来实现。
算法到底能干什么?
改变商业实践的结构
算法到底能干什么,它只是提高了效率吗,降低了成本吗?不是,更多是改变商业实践的结构。
比如,信用卡申请反欺诈。原来信用卡的反欺诈系统在银行里有各种各样的规则,但随着犯罪事实频繁变化,现有规则已经失效,如何抽象出新规则来判定非常重要。这就涉及两个核心技术,一个是复杂网络,一个是Deep Learing,要做的是规则的替代。用深度学习的方法把浅层的、神经网络事实上输入和输出之间建立映射关系,通过多层非线性变化把一个复杂的事实,用应用语言,用数学表达出来,通过这种方法天云推出的解决方案建立在35万坏样本的基础之上,学习准确率高达92%。在金融领域预测黑名单,天云也基于百亿条数据构建复杂网络, 做到精确实时预测。
还有NLP工具处理海量文本等,汤森路透使用天云构建的语义分类器,对每年数十万份上市公司公告进行机器阅读(增发/重组/可转债),一个简单的引擎替代分析师繁杂的工作。这些案例中,都离不开三方面的能力:
1、融合计算能力:从并行计算到分布式计算的创新;Scala分布式程序的算法代码重构,充分发挥SPARC/Alluxia内存计算能力。
2、融合在线数据:从流程驱动到数据驱动的创新;数据无需在生产系统和挖掘系统间抽取离线,实时的全量数据建模
3、融合业务价值:从零到一的创新;从业务问题定义到前沿算法模型反复迭代,最终体现商业价值化的模型,可以在平台中发布、分享和继承。业务创新可以规模化复制。
从AI研究到AI的大规模生产,这个议题在2018年开始被关注,但真正实现的确需要花长时间耕耘。《未来简史》中有一个概念,讲到1%的人是神人,因为他们掌握了数学算法,而剩下99%的人都在贡献数据。这个观点我们并不认同,我们希望每一次技术的前进和迭代都会很快的普世化,就像人类第一次发现刀子、斧子,第一次使用火、指南针,很快。技术不会固化阶层,我们通过做一款AI生态的“Android”,让获取机器智能,像读书一样简单,谢谢!