2016年12月16-17日,2016中国人工智能产业大会暨第六届吴文俊人工智能科学技术奖颁奖盛典在深圳举办,主办单位是中国人工智能学会,网易科技是承办单位。
【宋继强现场演讲分享实录(有删减)】
人工智能最近是一个非常火的词,从通过人工智能去玩游戏,到通过人工智能下象棋,从无人驾驶到智能机器人。我们知道人工智能突然变到一个非常高的高度,实际上跟数据是有很大的关系。
目前来讲,我们处在一个数据的洪流中,到2020年会有500亿的智能设备连入互联网,这其中包括我们个人使用的设备,也包括我们日常生活的周围环境中遇到的设备,例如车里面,医院里,交通工具,产品工厂里面,都在大量使用智能设备,这些智能设备会产生各种各样的数据,这些数据促使了我们有更好的数据去训练人工智能的算法,同时这些数据也可以让我们通过训练好的人工智能算法,产生更大的增值价值。
如何把握好人工智能的应用,跟能够驾驭数据的洪流有非常大关系。我们认为关键是搞好端到端的集成,那么多不同种类的设备,个头有的很小,有的很大,他们采集来的数据种类很多,通常不是传统的结构化数据,而是非结构化的数据。怎样能够很好利用云端和终端协同计算能力,让他们之间无缝并且高速传输、存储,构建端到端的解决方案,构成一个良性循环。
我们采购了数据,做了处理,送到了云端以后,在云端继续分析它,去提取出中间有用的价值,下发到终端,让终端更智能,这样反复循环,是一个最优途径,我们深刻相信这是未来的场景。
英特尔也在为这件大事进行布局,我们从终端到云端,包括中间的通讯链路、存储都有解决方案,我们收购了前端的视觉芯片深度学习公司,也有在云端专门根据人工智能做定制芯片加速的公司。
目前我们知道人工智能已经发展了60年,现在很火,但是20年后再来看,历史的发展长河里面,仍然处在一个早期阶段。我们怎么看一个技术是否已经达到了成熟阶段?至少有三个点可以看到。
第一,看它的应用是否已经普及到各行各业,还是只在一小块产业里去提供价值,这是应用的广泛度。
第二,是否已经有标准,不管是国家标准还是行业标准,是否已经有标准开始在制定和落地。
第三,是否已经有专用的硬件开始在市面上使用,而且第三点也是比较重要的,大家知道做硬件,第一个花钱,第二个周期长,产业没起来之前,硬件厂商是不会铺进去的。
现在看到部署人工智能的计算在云端还是很少,通过英特尔的分析,现在是云端提供绝大部分的计算资源,目前这部分的份额还是在10%,比较少,但是这一块是飞速发展的,到2020年,AI计算量将会增长12倍,我要节省电力、体积和资源,这都是重要的,所以要不断推动技术创新,不能停留在今天这个阶段,后面有更多的优化方案等着。
人工智能从学术界开始,定义学科来讲,它的目标是为了让机器具备人的智能处理能力,刚好跟徐扬生院士讲的第一条非常相似,哪些能力很重要?三大能力,感知能力、推理能力和行动能力,这三大能力是决定了你这个机器人能不能根据外界环境,做一个很好、很智能的决策,同时把他反馈到外部世界,而且比较稳定。
另外还有一个徐院士没有讲到的,就是适应性,不要设计好了只有当初的能力,而是要适应不断变化的环境,要有持续学习,自主学习,不断增强能力。记忆是目前大家还想得比较少的模块,但在一个真正的自主系统里,能够让人去使用它的话非常重要,它实际上是让你能够把感知、推理、行动串起来,去适应新的环境。
深度学习目前来讲非常火,他火的原因是什么?因为最近几年,我们首先有大量的数据,像ImageNet,提供了大量的数据,计算的能力也大幅提升,我们知道摩尔定律在过去这些年给我们提升更多的计算能力,存储能力也大幅度提升。
过去二十年来,我们的计算能力提升了上百倍都不止,我是90年代读大学的,用的是286,386,现在二十年后,是百倍级的提升,机器的主屏强,内存小,性能还是不够。1995年的时候,1GB的存储一千美金,现在0.03美金,这都是过去的摩尔定律推动到现在,才有这个爆发点。
这个爆发导致通过深度学习,在某些领域取得比较大的突破,有些领域比如说做视觉识别,特定的人脸识别,已经可以超过人,他犯的错误比人的少,因为人是生物,人会疲劳,人会走神,机器不会,所以目前在语音识别和视觉物体识别两个领域有非常大的突破。
我们看到了这个突破,通过深度学习增加它的训练数据来增加性能,意味着要增加训练能力,来支持这些训练,而不是把数据增加一百倍,把训练时间增加一百倍,我增加处理数量,是希望大幅度缩减训练时间,但是光增加处理数量行吗?
不行,你会遇到一个平台,因为处理器与处理器之间需要有通讯,这些通讯有时候是数据通讯,有时候是控制通讯,当你通讯的瓶颈达到的时候,你再增加处理器,你也缩短不了。所以就是目前来讲,为什么你在使用某些架构的时候,你再增加处理器,也不见得训练时间减少了,而这时候需要有更高效的技术,能够增加你计算的密度,同时也能够大幅度增加你的通讯带宽,这样才能达到线性的增长。
有了硬件,我们还要注意对算法的研究,因为硬件很好,你可以用很烂的算法把它用得很差。英特尔内部也和外面的学术界一起合作,在这几个前沿地利用少一些数据和少一些监督,去达到训练的特性。
对于市场来讲,AI整个市场仍然处于婴儿期,想投身利用AI做后面的各种产业的公司和学者来讲,时尤未晚,还有很多事情可以做。目前从英特尔看来,我们觉得会重度利用AI的行业有几个,一个是智能制造,会对AI有很大的需求,它的数据量产生得太多了。
第二是智能零售,这里面有人消费的记录,也有商品之间关联被购买的信息,有很多的数据。无人驾驶也是非常大的一块,英特尔把无人驾驶也是提升到很高的高度,我们认为无人驾驶是几年后一个最大的智能平台,这上面可以承载很多种不同业务,但是首要是要把车做出来,让它安全可以用,这里面也会用到很多人工智能技术。同时精准医疗、智慧城市、互联网金融、体育这一块,都是非常多拥有人工智能的。
举两个例子,一个是零售,我们知道零售业是端到端的产业,从生产、仓储、推销、推广,去看用户体验反馈,这是一个很长的链条,而整个链条里都有人工智能可以去加速的地方,在今年的双十一我们和京东联合在几个方面做了一些试验,发现这个效果很好,这里还没有用到至强融核的新东西,就是在英特尔至强处理器上做优化,一方面是在非法检测图片应用性能提升了4倍,图片版权保护应用也提升了2倍,这是在智能零售行业有很好的应用,而这只是冰山一角而已。
医疗行业也是数据非常多的行业,为什么说中国区有很好的机会呢?华大基因有很好的基因测序工作,目前来讲在全世界是领先的,美国做得更好,因为美国的监管还是很多的。英特尔的目标是把精准医疗大幅缩短使用周期和成本,如果你有了癌症,要去定制一个个性化医疗方案,找到你需要的药物,不光要花不少的钱做基因测序,至少1500美金,同时你要等一星期,这个结果才能出得来,我们的目标是到2020年,和这些行业伙伴一起,把这个时间缩短到一天,价格也大幅下降。
这一天里面,你做了基因测序,把你的医学影像处理分析出来,根据这些数据做个性化诊疗,给你一个个性化的医疗方案,一天24小时搞定,这个对于大众来讲有非常重要的意义,这也需要很多的AI帮助去做。
目前英特尔推出了Nervana人工智能学院,我们和全球领先的行业,企业领袖和学术界的重要教授们一起合作,除了硬件方面的支持之外,还会给大家展示怎么样做解决方案,解决方案一定是端到端平台支持的,不能只给他提供一个模块,因为这个模块用户很多不知道嵌入到系统里怎么弄,怎么弄做到最好,所以端到端的方案是非常有用的。
同时,你要对算法有一个广泛的支持,你要能够适应新算法,因为我们知道,深度学习也好,人工智能也好,由于大量的精英人脑进来,算法更迭速度是很快的,通常一个星期就有一些新算法出来,你怎么支持到这些广泛算法,同时你要想到这是软硬件系统的事,不是一个硬件公司自己推动,要结合产业界很多做软件的思路,也要把它提供出来,跨行业合作。
为了能够更广泛支持行业里的各种开源的深度学习框架,我们通过Nervana做跟硬件无关的适配,可以利用它的图编译器。深度学习SDK是可以帮助到几个层面的人,一个是你在训练的时候,数据科学家可以利用SDK去分析哪些数据比较有用,怎么产生一个好的模型,同时我们可以支持到。
不是深度学习的专家,不能把好的模型整合到方案去,因此最终我们支持在部署里很方便测试,去看部署以后的效果,并且形成一个好的迭代。在这几个方面都是整个生态一起合作供应的事情。
对英特尔来讲,我们主要提供的是两层东西,最底层就是硬件支持,我们会长期提供各种层级的硬件支持,端到端的,而且不只是计算芯片,包括了存储,也包括网络方面的能力。第二是我们会提供一个中间层,保证现在开源的一些东西,在我们的底下的平台上可以很容易使用起来,不会增加开发人员、研究人员重新学习平台的负担。
有这样的支持以后,我们相信再往上去做几个比较主流行业应用的时候,大家会更得心应手,也会提高整个人工智能去推动行业应用的普及率和速度。
希望大家有时间都去看一看我们的人工智能学院,这是最近才开始上线的,里面逐步会有更多东西放出来,也希望大家多关注英特尔在这方面的动向,我们既然承诺了到2020年要提升100倍,也欢迎大家来监督我们怎么实现它,谢谢大家。