2017年5月21日,由中国人工智能学会、中文信息学会主办、亿欧承办的2017·全球人工智能技术大会在北京·国家会议中心拉开帷幕。作为中国人工智能技术和产业领域规模最大、影响力最强的专业会议之一,本次大会汇聚了全球人工智能学术界和产业界著名学者、顶级专家和业界精英,在48小时的议程中,立体剖析了技术大牛与产业明星眼中的人工智能,硕果累累。
云从科技总裁周曦在模式识别与智能感知分论坛上以“计算机视觉的产业化探索”做了演讲。
以下为观点提炼:
1、语音和图像处理都是感这块,感相当于人的五官,是一个交互的入口
2、技术,产品,市场三位一体都得抓,技术是根本
【周曦现场演讲实录】
很高兴和大家交流,我原来以为大家是偏产业或投资方面的人,一看很多是同学。听了前几位嘉宾讲的东西都是偏学术的,我尽量讲快一点,一会我们可以讨论。两个部分,我主要想跟大家分享一下,如果我们搞计算机视觉技术的人想要创业会遇到什么问题,以及在这中间我们自己的思考。
首先,讨论一下计算机视觉这个行业。我理解人工智能分为感、知、用三块,我们做语音和图像处理都是感这块,感相当于人的五官,是一个交互的入口。知就是我们的大脑,就是做分析的。用就是包含身体、躯干等等这些东西,这是自卖自夸一下,说我们的视觉很重要,视觉占到了信息源的70%到80%。我们看一下只占10%到20%,亚马逊搞了Alexa股价到现在已经900多了,他们的老大马上当全球首富了,顺利超越比尔盖茨。
Alexa利用语音识别入口把所有的设备商连接起来的手段,亚马逊从2010年开始布局,大家讲了很多年的未来交互的入口,它首先自己做了一个音箱,通过把这条路走通了以后,它开放Alexa这个平台,让其他各种设备的硬件厂商接入,现在接入量上万了,所以就成了新的入口,当然也推动了亚马逊股价的上升。
可见人工智能的感知这一端,作为入口有很大的魅力。反过来视觉能搞这个东西吗,计算机视觉想做的事相当多,我们可以应用到电商、招聘管理,安防,直播,如果计算机视觉和其他的行业结合,和自然语言理解,ARVR,生物结合起来,还可以撬动各行各业。那这么大的应用前景,它怎么就没有出来Alexa这样的东西呢。
我们这个行业已经做了很长时间,好莱坞的电影早在一二十年前,就把计算机视觉演的非常神了,因为我自己是做人脸识别的,所以在好莱坞电影里向来随便就可以把坏蛋抓出来,好处就是帮我们做了广告,就是让民众理解人脸识别怎么用,缺点就是总是让客户有不切实际的期望。
我在2011年回国的时候,当时我们的公安就有评测人脸识别技术,希望用这个人脸识别破案。总之,测出来的结果,我们当时排第一,但是没有用,事实上当时的技术离破案一点关系都没有,那时候能够帮公安做一点事,就是证件查重,因为证件的效果好,除此之外想在监控视频下拿来破案是完全没有希望的,这是2012年的情况。
我说的这个什么意思,实际上计算机视觉的场景这么丰富,但是它没有产生一些非常牛逼的入口级的杀手锏应用,其实是效果问题。我们看一下人脸识别,人脸识别这里有写,在2015年这一年的时间,2015年到2016年,识别率提升到2个数量级,这是什么概念,我们以前是做语音识别出身的,我出国之前,03、04、05年是做语音识别的,04年在微软的时候,我们在讨论的这个数据有没有错,全球当时花在语音识别上的投资经费已经超过了阿波罗登月计划,但是当时做的事就是能做日报读报,如果你认认真真读报纸可以,想在实际应用没戏。
当时的语音识别就是摩尔定律的水平,每18个月的时间可以把错误率减半,如果做语音(英文)接线盘,上面还有30%的错误率,所以我就当了逃兵,不做语音识别了,改行做图像和视频了,所以我就讲,做了一个错误判断,正确的决定,实际上语音识别的发展速度比我想象的快一些,几年以后科大讯飞也上市了,我在那也呆过几天,看一帮兄弟很成功,包括我们开了云知声都很成功,但是图像视频是比语音更大的入口,即便人脸识别有一个数量的提升,也仍然只是在部分场景能用,前面各位老师讲到了,同一个技术在不同场景下的差别极大。
像人脸识别,我简单说,你做确认和识别,就是1:1和1:N,你做配合和非配合不同技术上的影响很大的,确认就是我只是想知道这两张照片是不是同一个人,这个应用点就非常多,比如说你去银行办事,宾馆,去飞机场火车站,把你身份证拿出来就是要判断人证合一。
现在就是N的问题,就是我一个照片知道它是谁,这个N有多大,这也是一个问题。再就是同场景和跨场景,注册照片和现场照片是在同源获取还是跨源的,一个是身份证照片,还是一个现场视频,这个跨源的情况很多。还有改变配合与不配合,我们去机场和银行是配合的,但是公安如果抓人的时候,基本都是不配合的,犯罪分子通常喜欢在夜黑风高的时候出来搞事。即便人脸识别,大家觉得目前进步很快,成熟度很高的人脸识别应用,它仍然是非常受限的。
第三个,人脸识别本身就是入口,本来可以打开各行各业,所以坚持不懈把这个入口做好,这个是非常有必要的。具体做什么事呢,这个讲到2B和2C的问题了,大家很多人觉得C端比较性感,我们做C端,大市场,你得看你的技术行不行。B端是什么特点?B端的特点,第一它的门槛高,也就是说它要求是你的性能要好,技术比较难;第二要求服务要好,第三对价格相对不敏感。C端要求性能好,使用方便,价格便宜。
我们想一想,我们现在的技术基本上是偏定制化的,我们做人工智能技术,金老师也讲了,还没有一个通用技术搞定这件事的时候,怎么做到使用方便,怎么做到价格便宜,使用方便。我们买一个手机,如果有一个手机说,你要看说明书才能用你会买吗?很抱歉,我们的东西你看了说明书还不能用,我还得派人上门给你调试。但是反过来,如果今天是做大B端,上门就调试,就是服务好。现在大家我们行业的独角兽都是做B端的,做不了C端。C端什么时候才能做,我估计还要做一两年,以现在的速度发展,再有一两年就可以了。
所以,技术,产品,市场三位一体都得抓。技术是根本,所以云从的技术团队很大的,我们三个研发中心,上海、成都、重庆两百多人,我们在上海交大和美国硅谷加起来有300多个研发者。这么多人肯定要干很多事,外面的人脸识别是几十个模块。我们保持做一线公司,江湖地位是打出来的,不管是银行还是公安,你要努力拿第一,我们也不能保证都赢,只是胜率的问题。
第二个就是产品,只有技术不行,要深入业务场景做产品,我们在银行里,11个部门有46个解决方案。公安里我们做海陆空一体化的应用,因为公安的东西涉秘,我不详细讲了。
第三个就是市场,市场特别重要,我们逻辑是从上到下都得搞,我们云从有中科院背景,相对来说比较容易做,我们得从顶层设计做起,人脸识别不管公安部标准,国家标准,都是我们云从做的,所以最顶层的标准和未来的发展都要控制在手上,这是很重要的点。第二就是落地,云从在全国10个城市建立销售服务中心,每个销售服务中心管周边几个省,我们在每个省都有专门的服务人员,这种配置在一般小公司不是都能看到的,我们还有科学家跑去装摄像头被电打伤了,我们严厉批评了这种行为。
结果就是我们做到银行的第一大供应商,包括中农交建等几大行,银行总行一旦选哪家是不能改的,是不替换供应商的,之后不管做网点改造,还是信息服务,都要用云从的产品,这也是为什么当时打的这么惨烈,即使是10万块钱的单子也要抢。第二个就是公安,这个也是很幸运,2016年在广东,把日本和德国甩在后面了。
云从科技在2017年人工智能已经被定为国家战略,国家发改委定了4家人工智能基础资源公共服务平台,4家公司分别是百度,腾讯,科大讯飞和云从科技,我们非常有幸为国家出力,建立人工智能平台,国家要求它每日调用次数超过1亿次,也就是说希望人工智能作为一个桥梁,真正可以改变各行各业,这个要求估计百度和腾讯比较容易达到,对我们来说是一个问题,我们千万级别没有问题,还没有到上亿级别的调用,也是国家对我们的鞭策。
选择我们重要的原因,就是国家希望我们完全国产化,也是希望国内的公司和中科院的公司主导这方面的事。总的来说,在过去两年里,我觉得我们算是很幸运的例子,人脸识别是正在爆发的智能应用,而且在爆发的两年里,我非常幸运的没有带大家把路走到绝路上去,比如当时在拼银行的时候确实拼下来了,现在可以自豪地说我们很坚持,但是实际上在这个过程中的时候,并不是这么简单的,很多时候就是赌的,赌赢了就是英雄,赌输了就是狗熊。谢谢大家。