商汤科技联合创始人徐冰:看好人工智能+投资,探索特殊商业模式

2017年2月16日,由数据猿、中欧商学院、腾讯直播共同举办的《中欧微论坛|数据猿·超声波》活动在中欧商学院北京校区圆满落幕。

活动中,商汤科技联合创始人徐冰发表了精彩的演讲分享。

黑科技,人工智能,商汤科技,徐冰,人工智能,深度学习,规模化数据标注处理

以下是“商汤科技联合创始人徐冰”的演讲内容:

大家下午好,刚刚听前面几位嘉宾的演讲,尤其是听到TalkingData鲍总的演讲时,让我有点“心虚”,因为我们就是一家专门做人工智能算法的企业。鲍总刚才讲到,人工智能会导致一些人失业。商汤在2016年服务了很多客户,给他们提供了各种AI算法。确实,有些客户在购买算法后,对内部劳动力结构做了调整,把一些人员裁掉了。这件事情如果一旦放到伦理的角度去讲,我们可能永远都讲不完了。

我发现每位嘉宾都用非常通俗易懂的语言把深度学习这项技术讲得很清楚了,我作为一家做深度学习技术的企业嘉宾,也没什么好讲的了。今天就先跟大家分享两点:

第一,商汤在深度学习上是具体怎么投入的?比如如何建超算、整合数据资源、研究算法等,怎么做到技术超出人类水平。

第二,在算法做到超过人类之后,现在到底在哪些行业进行应用了?比如安防监控、互联网金融、机器人等,它们怎么在用,哪些地方用了之后带来效益上的增长。

人工智能是下一波技术浪潮

人工智能概念在1956年被提出来,这项技术目标是为了提高效率、降低成本,提高生产力,解放劳动力。如果可以实现,肯定会有非常大的商业价值,就像当时蒸汽机被发明一样,交通、纺织等许多行业都被颠覆了。人工智能发展到现在,经历了三起两落,历史上其实也有两拨热潮,有很多科学家研究人员说人工智能时代到来了,但是后来很快冷下去了,根本原因是人工智能技术的精度和技术指标还未达标,跟人还相差很远。所以,真正去买人工智能技术的商家买了之后发现没什么用,他就不会再继续买了,也不向周围人推荐,人工智能就冷了下来。

为什么从2014年开始又火起来了呢?主要深度学习的带动之下,人工智能技术精度大幅提升了,而客户端的反馈也发生了根本的变化,客户买了人工智能类别的产品之后,发现原来1000个人能完成的事情,现在只需要100人就可以了。大量简单的、重复性工作用算法就可以完成,只需要少量的人力筛查一下,或者处理比较难的案例。从去年来看,人工智能落地的速度已经远远超过我们的想象,到2017年之后,我们看到越来越多的大企业有更多的预算采购AI算法,或组建自己的人工智能团队,让自己的产品和业务得到持续的升级。

深度学习——带来各项人工智能技术的突破

深度学习是在大量的数据之上去挖掘、总结数据里的一些规律,最终让机器学习到某一项技能,比如下围棋。其实,人工智能不仅在围棋上可以超过人类水平,在2014年,人脸识别技术已经超过了人类水平;2015年,图像分类,人的误差是5%,技术现在最低的误差已经到2%-3%;自动驾驶方面,去年所有的车厂,大量的互联网公司,包括像滴滴、优步全部都投入到自动驾驶上,收购一些自动驾驶算法公司,大家开始在车上安装各种采集行车数据的设备,去教机器怎么开车;语言的理解、翻译,去年谷歌也得到了算法的重大突破;深度学习也开始被应用到生命科学上做DNA的一些分析。

可以看到深度学习的通用性非常强,它用在各个领域里面,在看似不相关的各种应用技术上,都产生了效益。这些具体技能性的应用,当它做到接近人或者超过人类水平的时候,就可以用到行业里面,帮助规模化地提高行业的生产效率。

深度学习的三大核心要素

在深度学习方面,大数据、计算性能、算法,三个维度上同时取得突破,带来了这一波新的商机。下面我简单分享一下,商汤在这些上都做了什么。

首先一句话介绍一下商汤,我们是一家深度学习算法公司,目前是国内该领域,技术团队规模最大、商业化订单、收入及融资额最多的公司。

在算法上,我们垄断性聚拢了超过100多名博士、教授进行算法研究,每个月投入千万量级的研发经费,搭建底层的深度学习框架和算法平台;在应用层,我们做各种视觉识别算法,如人脸识别、视频分析、无人驾驶视觉、医疗影像识别等。

算法其实目前依然处在高速发展期,举一个非常典型的案例:在200类物体的检测、识别这项任务,随便给一张照片进行内容辨识,识别什么样的物体在什么样的位置。这是一个完全不受控的算法问题,物体之间有相互遮挡,有形变,非常难。2013年,这项任务的平均精度只有22%。但是深度学习出现后,2014年Google就到了43%的精度,提升一倍。2015年,我们的算法又高出了Google7个点,半年后,微软的算法又提高了十几个点,而现在,我们最新的结果又比微软高了4个点。

这样快速的算法提升,以前在学术界以前是不可能发生的,在2011年往前,各种AI算法精度,一年提升一到两个点已经很了不起了,那时候大家都看不到人工智能会在什么时候成熟。但像现在的一些算法,一年之内可以提升5到10个点这样的速度,相当于之前10年的积累。对于现在做深度学习的企业来讲,一个核心的竞争力并不是说在当前的时间点上算法领先,而是如何保持持续的算法领先。因为今天领先,可能明天就会被别人超过,需要有超强的创新能力,持续改进算法,跟顶尖的算法团队赛跑,持续地去超过别人。

在超算能力上,也是要有实实在在的投入,现在做大规模深度学习算法研究,必须有GPU超算,如果你的数据量特别大,用一台服务器,或者普通的CPU为主的集群,根本没有办法适配大规模的训练。神经网络训练对并行计算能力的需求,使得大部分做深度学习的企业,包括谷歌、微软等等的,全部都要向NVIDIA这家公司购买大量的GPU计算卡,NVIDIA的股价去年涨了四五倍。用NVIDIA GPU建设集群已经变成一项AI领域的基础设施,有强大的并行计算能力,才能保证算法有比较高的迭代效率。

我们最早在2011年做深度学习,那时候没有这样的集群。2014年,我们用20万张的图片量做人脸识别,全球首次做到了超过人眼精度的突破,当时使用1000个核的CPU集群,训练一个月只出一次结果,意味着一年只能迭代12次,所以那时候做算法创新是非常痛苦的。而现在有GPU集群,200块GPU卡,六千万的人脸照片用作训练,基本可以在两个小时之内完成一次迭代,还可以同时开启10-20个不同的任务,用不同的网络结构,不同的参数去尝试,看最后的结果好不好。集群带来计算性能上的提升是上百倍,上千倍的效益。所以这件事情本身就保证了算法能够高速的迭代和提升。

规模化数据标注处理

第三块是数据,中国在数据上有比较大的优势,14亿人口每个人都是数据的生产源。我们在获取数据时,是用算法升级去做交换的。我们大量的客户,持续给我提供算法训练所需的数据,用于算法的研究和性能上的提升,让我们可以给客户供应更好的算法,相互支持。而标注数据——向机器描述什么是一盆花、一个瓶子,让他去学——这需要非常多人力,所需成本远远高于采集数据。而这些又是必须的,因为不做这些机器就没法学习。因此这里也是一部分底层能力的建设,如何更高效、半自动、成规模地标注数据。

其实在人工智能行业整个的业务流程中,以上三方面的投入、成本都是共用的,这些叫基础设施层的投入,这一层的投入完成后就到应用层,我们把基础设施层的能力建设扎实,去研发这些应用,比如人脸识别算法、成像感知算法、图像理解和搜索算法等等一些跟客户需求有直接相关性的算法。这些应用算法其实就帮助解决各个行业里面,某些劳动力密集可以提高效率的环节。像安防行业,我把现有的通过我统一的深度学习平台,一套共用的成本所研发出来的算法组合在一起,就推出一套解决方案。针对金融行业我可能就是另外一个组合再推出一套解决方案,你会发现这里面大量的技术模块都是共用的。进入每个行业的边际成本很低,这里就反映出深度学习的平台效应。

颠覆——安防/智慧城市

我们来看看在安防行业里面成规模用起来的一些技术,比如下面这个项目:视频结构化平台。当时这款产品被一些到我们公司参观的人拍下来之后传到网上,引起了很大的轰动。“现在我走在路上,摄像头拍到我,都是头上顶着各种标签的!”

但这项技术在去年之前,技术精度低到没有人去用,去年年中才成熟。这是一个非常复杂的场景:一个十字路口,所有的机动车、非机动车、人都要检测和追踪,以及识别属性标签,比如这辆车是什么颜色,什么型号,车牌是什么;这个人是男是女,成年还是小孩,衣服颜色,有没有背包…这样的一些属性给记录下来,首先是方便检索,公安破案的时候直接输入关键词搜索就可以找到相关监控录像了,不需要像过去一样几千名民警把所有区域的监控拷空,回家一人分一百个小时自己看,对警力造成了极大程度上的占用;同时中国一半以上的硬盘全都是来存储监控视频,而现在可以存下属性标签和截图,所以这也是一个存储效率的提升。另外还帮助你去判断有没有异常的事件,事中的预警。

另外这是人群分析系统。这是在上海外滩的一个场景。当年发生踩踏事件之后,大家都在想有没有一种算法可以每时每刻监控这个场景的人数,当这个人数一旦有超标的趋势,就派人去线下疏导人流,这个就是基于深度学习,去理解这个场景里面有多少人,每时每刻做一个实时的计数,现在这样一套产品部署到上海外滩,可以进一步预防由于人数太多而出现的踩踏事件。

这一项也是非常典型的应用,在一些关键位置,比如电梯口、通道等位置部署一个摄像头,它把拍到所有人的人脸抓下来之后,跟黑名单做一个比对,如果有罪犯在里面就会自动报警。再换一个场景,比如放在酒店、放在机场等,实际上意味着我有一个白名单,全部都是VIP、高级客户、高净值客户,我识别出现他之后,我就要针对这些高端客户服务,那就变成一套VIP识别系统。

再比如说,现在的摄像头在100米开外这么远的距离之内,有没有可能也能够识别出你是谁来?对应一些产品,比如说100米之外对人的识别,对车的识别,以及对整个广场的识别,对这样一个广泛区域进行高效监控,对广场里所发生的事情进行识别,这样当出现特殊情况时,比如有一波人在聚集,监控会把每一个人抓下来之后跟黑名单做一个比对,并且全部是自动化完成。

颠覆——互联网身份认证

刚刚那些例子讲了一些跟大家日常的人身安全,包括跟公安刑侦、安保相关的效率上产生的一些具体的价值和提升的点。而在金融领域也有一个非常价值的提升效率的点,就是身份认证环节。传统来讲,银行、金融公司在服务客户的时候,首先要认证你的身份,完了才能开户,借给你钱。在过去,这个环节是靠肉眼去看的,拿着身份证看你是否是本人,这个事情本身第一会产生误差,第二消耗人力。

为什么我们开一个银行账户不能像开一个QQ号一样简单,现在移动互联网这么发达,我们手机就可以开户,为什么不能实现?其实就卡在身份认证这个环节,但现在这件事也因为算法上的突破技术更成熟了。

在去年一共有接近4亿人使用我们的人脸识别、文字识别技术进行了实名认证,互联网金融公司以借贷宝为代表,用户量一年实现了一亿的增长,我们的技术保证这一亿全部都是实名制的客户,这一类金融类机构大概认证了1.6亿到两亿人。

另外一类通信,移动运营商去年有一个国家要求的指标,必须要完成未实名制的手机卡。去年中国移动用我们的算法做了3亿人卡的认证。这项技术已经被规模的用起来了。

包括乐视,在系统上加入一个刷脸就可登陆的技术,对提高用户体验很有帮助。

颠覆——智慧商业

现在讲消费升级,如何获取线下的消费信息?比如什么样的人对什么产品感兴趣?这个我很难知道。现在基于视觉职别,我可以知道什么类别的人,分别在什么区域停留多长时间?什么店铺去了多少次?这些数据可以收集上来在线上做一些分析。

颠覆——移动智能、增强现实

一些AI算法也带来了用户体验上的改善和交互模式上的提升,比如在拍照的时候,把模糊的照片进行一个处理,暗色的照片进行提亮,这些实际上都是背后基于深度学习技术,去学习如何把这些有问题的照片恢复回来。比如说现在还有一项很火的应用,如何用手机,比如类似苹果7PLUS,双摄像头能够拍出来3D的照片,能够模拟出来单反的拍照算法。一个简单手机就可以拍出大光圈的单反效果,这其实背后全都是我们提供的深度学习算法。

还有比如拍到的这个照片内容,进行识别然后做智能相册,个人照片分一类,你太太的照片分一类,小孩的照片分一类,现在小米和华为已经全部上线这项技术,包括微博。去年也有一些年轻人喜欢用的产品,增强现实的贴纸特效,一年内有50多家直播公司和APP公司找我们采购这项技术,基于人脸关键点追踪。

当然我们看到有一些更加前瞻性的、颠覆性的技术也在研发过程之中,像无人驾驶。无人驾驶是一个非常复杂的场景,在剧烈的光线变化下,在没有路灯的环境下,还有下雨下雪的情况下等,你要保证你的算法具有一个比较强的稳定性,所以这个场景是一个对算法本身的精度要求很高的,同时也是非常难做的一个场景。另外还有人机交互,机器人也很火,但是机器人怎么跟你交互,你摆出来一些姿态之后,它要理解你,这里面也需要非常精准的算法。

接下来是遥感,所有的遥感照片,卫星拍到的照片,都是人工标注解析的,但是现在这些标注任务已经完全可以被机器替代了,算法的标注精度不低于标注员,效率也很高,一个标记员标记北京市高清地图需要30天时间,但是一台普通电脑搭载算法9个小时就可以完成。这里带来的是全行业50%以上的生产效率的提升。

人工智能的特殊商业模式探索

这么多AI技术可以提高应用上的效率,而且商业模式上,现在多数是通过SaaS服务按API调用量收费,SDK按license数量收费,把这个算法做到芯片化,以芯片出货量计费,或放到服务器上按照软硬件一体的方式收费等等,这些是比较传统的2B的技术提供、技术输出的收费模式。但是我们看到AI带来的经济效益远远不止于此,客户通过使用AI算法,进行成本结构上的改善可以带来利润上的显著提升。提供这个层次的技术,如果只是付给我100万的年费的话,明显不划算。

所以像这类的场景下,我们看到投资是非常好的结合方式,如果我已经用技术验证了,可以帮助把客户的利润、收入提升30%到50%,那么我应该提前投资这家企业,获得股票价值增长的收益,甚至可以控股这家企业,它提升了一个亿两个亿的利润,都可以直接并入我的报表。这可能是在未来,比较适配人工智能这项产生巨大价值的技术的商业模式。这也是我们在着重探索的商业模式。

如上就是我的分享,谢谢大家!

相关领域
商业