话添喜式 | 第四范式入选2018中国人工智能独角兽榜单,陈雨强现场解读如何以平台助推AI普惠
7月6日,由创业黑马主办的“2018中国独角兽峰会”在京举行。活动现场,创业黑马联合上百家投资机构、权威媒体,邀请人工智能专家与专业投资人,历时数月,从企业估值以及产业价值的角度,发布了2018权威榜单“中国人工智能独角兽”,第四范式位列独角兽榜单,是唯一入榜的机器学习平台公司。
(图为“2018中国人工智能独角兽”完整榜单)
第四范式联合创始人兼首席研究科学家陈雨强出席活动并发表主题演讲。陈雨强在演讲中表示,真正能帮助到企业发展的AI,其实是能制定策略的AI,无论是内容的推荐,风险的预判,还是其他很多已经利用AI成功的公司,智能决策是最关键的一点。
(图为第四范式联合创始人、首席研究科学家陈雨强演讲)
要将智能决策应用到更多的行业和领域中,陈雨强认为有三道题要解开,包括认知、数据、算法三个层面,而要解决这些问题,核心是总结出一套企业构建AI能力的方法论。
以下为经i黑马编辑过的演讲节选:
AI是现在非常火的一个话题,已经在多个领域证明了它强大的能力。但我今天要跟大家分享的是AI落地,如何让AI真正在各行各业发挥作用?这是现在很多人都非常关心的问题。
在大多数人的眼里,AI指的是那些让机器拥有听、看、说、跑等人类技能的技术,所以我们会比较关注人脸、语音、无人车这样的AI。但从另一个角度上看,国内外科技巨头这些已经成功利用AI获得巨大收益的公司,并不是依赖这类AI技术进行公司经营的。
那真正能帮助企业进行经营的AI能力是什么呢?我们认为一个企业的经营通常来说分为三层,高层来决定战略,中层来决定策略,底层来决定执行。在过去,互联网或者移动互联网解决的是执行问题,不需要我们业务员再去街上发传单、一个个打电话,我们通过互联网可以去触达到很多客户,但在过去,中层策略的制定,还是由人来做的。
而现在真正利用AI创造核心价值的公司,都是将AI技术提到了中层的策略制定层,让机器自己能够在给出战略目标后自动精细化决策。
智能化地决策在一些头部企业已经产生了非常多的成功案例,例如内容推荐、风险预判等。但它怎么能推广到更多的行业和企业中去呢?我们不得不承认这有很大的瓶颈。总结起来,企业首先需要解开三道题:
第一道题:算法科学家与业务人员的认知鸿沟
如何解释用人脸识别去抓坏人这个问题,深度学习科学家会告诉你什么是卷积操作、池化、梯度、学习率,这些事情无异于一个脑外科神经学家讲怎么从视神经到V1、V2、V3、V4,到脑顶层来告诉你人怎么识别一个物体。显然,业务人员根本听不懂这样的语言,从业务人员的角度,看到的是全国哪些城市犯罪率高、男性还是女性更容易犯罪、早上还是晚上犯案?所以,业务人员的关注点和科技人员的关注点差别非常大。要让各行各业的业务人员也能够用上AI算法,存在一个巨大的认知鸿沟。
那么第四范式做了一件什么事情?第四范式把构建人工智能的过程进行了标准化,借助教育领域“库伯学习圈”理论,标准化为四个步骤,分别是行动、反馈、反思和理论。通过学习圈理论,我们将业务闭环与AI产生的过程融合到一起,能够大幅地降低非机器学习专业人士认知AI的门槛,让更多普通人也能够使用上人工智能。
第二道题:BI的数据系统无法满足AI需求
库伯学习理论里,反思和理论部分,就是深度学习的建模过程。但巧妇难为无米之炊,如果人工智能没有好的数据,就无法拥有一个好的效果。前面的行为、反馈这两个步骤其实是采集数据和标注数据的过程。一般来说数据有两种方式,一种叫做BI数据,一种叫做AI数据。BI的目标是让人来总结出新的规则,它要知道一些统计的概况,并且一定要抓大放小,因为人不可能看到所有的方面,只需要看到最主要的因素,很多企业说自己拥有数据,很多时候往往是过去收集的BI数据。但是AI需要的数据不同,机器学习的核心是要做到面面俱到,所以要把所有能够提供给机器的数据,完整而原封不动地喂给机器。AI大数据其实要做到完整和实时。
人工智能不可以用原有的BI数据,而是要收集用于产生AI的数据——这样的差异导致了现在的数据处理系统也没有办法满足AI需求。在这种的情况下,第四范式开发了一套AI大数据系统,从数据收集、数据管理到数据应用,整个步骤都根据AI应用的目标进行设计,可以存储PB级别的数据,可以实时存取并快速进行批量处理。
第三道题:算法科学家稀缺 难以满足AI落地需求
刚才提到行动和反馈是指数据门槛,但最终我们还需要对数据进行反思和理论。反思和理论是人在学习时用到的名词,对应到机器学习,就是“机器学习技术”,这需要非常扎实的理论基础,以及非常广泛的应用经验,仅有少数的杰出的科学家知道对于一个具体的实际问题,应该怎样设计网络结构。但做到这些需要时间与学识的积累,没有办法复制到所有行业,最后导致即使很多行业有数据,却仍然没有办法使用AI。
所以,能够让机器学习自动地建模、调参、选择网络结构,甚至是自动选择数据、自动决定数据组合方式,从而摆脱对科学家的依赖,就变得非常关键。在学术领域里这些工作被称作自动机器学习(Auto-ML),这个领域即使在学术界也是非常前沿,在全世界领域内的研究都还处于早期。而第四范式从三年前就开始率先研究这个领域,在这个研究方向的推进中扮演着至关重要的角色。人工智能最高的学术会议之一NIPS,今年将Auto-ML方向的比赛首次交给企业来办,就选择了第四范式,这获得了学界非常大的关注。
目前第四范式的Auto-ML已经封装到“第四范式先知”™中,帮助客户的非机器学习专业的业务人员,也能使用机器学习解决业务中的实际问题。金融领域,第四范式某国有银行客户的业务人员,在低门槛的“先知平台”上进行建模及模型上线,最终在60%召回的情况下,将反欺诈线上效果提升了7倍;也有客户的业务人员使用先知平台参加国际的反欺诈大赛,打败了众多反欺诈领域的专业公司、获得第二名。医疗领域,在第四范式与瑞金医院共同发布的瑞宁知糖项目中,可以判断一个人三年后患糖尿病的概率;利用Auto-ML技术,医生找到了超过50万条规则,最终诊断的准确率相比于欧美标准、中国标准都有非常显著的提高。去年英国首相访问中国的时候,还专程参观了瑞宁知糖。图像领域,客户基于先知平台实现表单OCR识别效果的提升,手写大小写数字识别的准确率分别都达到了97%之上,若使用大小写互相校验,准确率可以达到100%。
一套构建企业AI能力的方法论
第四范式致力于解决企业落地AI的三大难题,并总结了一套企业构建AI能力的方法论,这套方法论首先是定义目标问题(Needs),然后需要正确及规范地采集过程数据(Big Data)、反馈数据(Response),最后通过AI算法(Algorithm)加上底层的计算能力(Infrastructure),来完成全闭环的AI应用。这套理论我们称为BRAIN要素理论,只要能满足BRAIN这五大要素,就能让一个企业真正拥有AI能力。
基于BRAIN,AI落地会发生一个比较本质的改变,在过去,AI的落地只能被称之为“用能”:企业基于外部通用AI方案的固定能力,适配到一个固定的领域与场景。这样做最大的问题在于“用能”所使用的方案不可能针对于每个客户单独设计,自然也无法识别其非标的价值——而现实中每家客户的问题不一样,要提升的目标点也不完全相同,如果走“用能”模式,无法针对性地高效解决企业问题、最大限度地发挥目标场景数据的价值。同时,标准能力的成本看起来是降低了,但是一旦有任何改变,就只能完全依赖技术提供商的支持,难以做到成本与技术的可控。
第四范式希望将来把AI落地改变为“赋能”的模式。第四范式有底层的AI平台“第四范式先知”™,在这个AI平台之上,已经有上千家合作伙伴以及终端用户,正在低门槛地进行AI应用的开发。基于平台模式,企业能够自建完整的AI能力,并且门槛低、成本合理可控。此外,企业还可以根据自己的需求进行改变和迁移,真正发挥AI在企业各项业务中的价值。
在这样的思路之下,第四范式也将先知平台的成本和门槛降到极致,今年3月,第四范式发布了国内第一款全免费的智能客服产品,这款产品是基于先知打造,可以向大家证明人工智能应用开发门槛能被降低到什么样的程度。接入第四范式智能客服只需要三步:第一,构建机器人;第二,确定并对接企业需要接入的渠道;第三,发布使用。用这种方式,接入一个公众号智能客服只要5秒钟,让一个IOS、安卓应用程序原生内置智能客服能力也只需要短短2.5分钟,同时后台可以自学习迭代,并且企业可以定制化专有的应用与场景。目前,已有上千家客户接入第四范式智能客服。
最后总结一下,第四范式认为AI的落地需要一个强大的平台,降低企业进入AI的门槛。第四范式一直致力于通过先知平台降低AI认知的门槛、数据的门槛与算法的门槛,并通过这样的平台为AI的落地模式带来根本性的变化——从“用能”到“赋能”,让AI不再束之高阁,成为所有企业标配且普惠的技术。