英伟达董方亮:这是一个基于AI和Deep Learning的时代

2017年05月26日,“北大AI公开课”第13讲,英伟达自动驾驶业务中国区负责人董方亮做了题为《GPU助力的人工智能时代》的演讲。

他探讨了当今这个时代的AI,以及今后的AI会朝什么样的情况去发展。

英伟达自动驾驶业务中国区负责人,董方亮,人工智能,英伟达,自动驾驶,VR,GPU

【董方亮现场演讲实录(有删减)】

今天的交流大概分成四个部分,第一部分,我会跟大家对GPU进行简单介绍;第二部分,我会把GPU和Deep Learning两个联系在一起;第三部分,我们会探讨一下当今这个时代的AI,以及今后的AI会朝什么样的情况去发展;第四部分,我会分享给大家一些英伟达GDC2017年大会和会后我自己的一些收获。

第一部分,先讲一下GPU,基本上打游戏的人都知道GPU,用GPU的人很多都听过英伟达,英伟达其实最早是做视觉计算的公司,我们公司的创始人最早要做一个不同于GPU的产品,当时是这样的一个出发点,也就是我们做一款GPU,做一个gaming的市场。

GPU

为什么我们说GPU非常合适于今天的AI的计算,也就是说Deep Learning,我们可以来看一看。这一页展示的是一个GPU计算的年谱,我们把它简单理解为一个年谱,我们可以看到英伟达在2006年的时候,做了一件事情,我们做了一个CUDA的东西,CUDA是computing unifieddevice architecture,核心意思是说当GPU它是一个多核的计算体,这样一个多核的计算体,我们如果能用一套架构,能够把这样的计算,通过一个统一的架构完整的调动起来,这就是形成了一个并行计算的基础,所以英伟达在2006年的时候推出了CUDA,CUDA这个是从底层的CUDA一直到上层的应用,都是一个比较完整的SDK,也就是说我们的CUDA是一个最早为了并行计算之前就做了很多充分的准备。

现在的摩尔定律还能不能适应今天崭新的计算架构,我们知道摩尔定律是这条蓝线来表示在一个平台期很难突破,这个主要突破的难点之一在于线程做的比较小会有很大的挑战,但是Deep Learning还在往前发展,所以它一定是需要全新的架构去支持,还有它必须能够沿着比摩尔定律更高的这种计算力的发展方向去发展,才能够匹配今天的全新的计算模式,在Deep Learning和AI的时代,体现一种比较好的计算能力。

所以我们可以看一下,当GPU发展到今天,我们可以预计到2025年,这种计算力的增长,有一个非常高的需求,GPU计算为什么会兴起?原因就在这里,GPU它提供了一个跟之前的,我们叫general purpose computing(通用计算)不一样的模式,也就是说基于GPU,我们可以图中的左边,底层是CUDA,上面是系统,然后是算法,再到上面的应用,这样的一套架构。那么GPU来支撑这样一套全新的架构的情况下,能够完成现有的计算力。

我们可以对CPU和GPU做一个简单的比较,左边是CPU,右边是GPU,我们可以看一下,GPU的特点和CPU的特点是不一样的,GPU是一个多核,是一个简单的多核的处理器,它在结合CUDA之后,非常有利于做并行运算。当然,GPU还有一些它自己比较有特色的东西,比如说GPU里面会包括多个streaming multiprocessor,也就是说流的多处理器,上面会包int F16、F32、F64的处理核,这是GPU的特点,所以我们可以看到,GPU它其实是非常做并行运算。

并行运算其实这种应用场景,Deep Learning是一个非常好的应用场景,这是一个简单的神经网络,Deep Learning这个网络为什么去设计这样的网络?最早的时候,这种设计的网络其实是一个对人脑的叫“假说性”的一个理论,也就是说在70年代的时候,有两位德国的医生和生物学家,他们对解剖猫的时候,他们觉得从猫的大脑来看,他觉得神经元是一层一层的,神经元和神经元之间有反射弧,他们讲如果当神经元和神经元连接的时候,有反射弧,有电流的时候,他就认为这是一个激活状态,这套理论从他们的角度来讲是非常切合人脑的识别的模式,所以他们当年提出了这样一个架构。

当年提出这个架构以后,在后面深度神经网络的架构慢慢出来以后,我们发现用深度神经网络去做具有pattern和具有特征的数据的分类识别的时有非常好的效果,比如说这种有pattern的数据,代表像语音数据,像图像数据,它有非常好的鉴别效果。前层的神经元或者说我们叫前层的layer,它是后层浅层的表现,所以图像识别和云识别这种带有pattern和特征从输入到输出能分类,这样其实就是深度神经网络一个比较简单的理论模型。

深度神经网络的每一个节点可以模拟成一个计算核,这样一个计算核用GPU去做,也就是说GPU承担了这样一个深度神经网络里面每一个节点的计算,这是GPU符合DNN架构的原因,所以GPU在今天,是线下训练的唯一的选择。

其实Deep Learning是一个新的计算的模式,它包括了两个部分,一个部分我们把它理解成线下的训练,就像刚才那页图里面讲到的线下训练,那线下的训练就包括,我们叫在云端,或者在服务器端,加在GPU的服务器去做训练。还有一端是说去做线上的推理,也就是说从线下到线上,完成了整个新的基于GPU的计算模式,就是从线下训练好的模型放到线上去做推理,这是现在Deep Learning的一个比较普适的模式。

刚才也有讲到Deep Learning的计算模式比较适合于三类数据,一类数据是图像数据,还有一种是语音数据,第三个是自然语言处理。自然语言处理也包括文字,也包括对语义的理解,都包括进去。

我们说GPU带来的Deep Learning创造力的全新计算的时代,一定是有很多很多的机会给这种初创的公司,我们可以去看一下Deep Learning引导的时代有哪些机会,我们现在列出的一个比较有代表性的AI的startup,第一个是健康医疗,这是一个非常大的途径。第二个是零售。这个零售里面,我们可以看它解决了什么问题?其实很多公司在解决,一个是商品选择,第二个是支付问题。

第三个是金融,这里面有很多很有意思的公司,美国有一家投资公司,他们用卫星图片,他们买了无人机和卫星图片,天天在美国上空去扫描庄稼地,很多人刚开始不理解,说跟庄稼地有什么关系?它就是利用DNN网络去做图片的识别,它识别的是某一种或某几种庄稼今年的长势如何,它要这个信息干什么?他们在期货交易所做对冲,这样的话,它能够通过它的物理识别,它可以估算一下全国,比如说我的产量,农作物的产量是多少,它分析数据得出今年庄稼是欠收了还是多收的结论,它拿这样的信息去做对冲。

第四个是安全。现在也有公司它会去做基于安全的解决方案,有在做。底下的IOT就比较多了,比如说像一些机械公司,包括像无人机公司,他们都在做很多很有意思的事儿,比如像陪伴机器人、服务机器人、无人机,无人机结合Deep Learning去撒农药,是很好的针对特出场景的应用。

第五个是无人驾驶。无人驾驶现在非常非常火的一个领域,也是英伟达非常关注的一个领域,无人驾驶这个领域代表的是Deep Learning技术,AI的技术,以及跟未来的交通行业的结合,所以是一个非常火的市场。

第六个是网络安全,比如说现在有些公司,他们用Deep Learning去做针对病毒,包括网上的恶意攻击模式的判断,他们做的这种方案的好吃在哪里?就是说它的这些好处在于这些方案是可以做到实时的升级,跟以前的基于你去做标识库或者病毒库的机制不大一样,它是本身已经训练Deep Learning,然后它去不停的判断,这个新来的攻击归到哪一类?这是一个比较有意思的应用。

所以从这页,大家可以看到,其实AI相关的领域的应用,从startup这个角度来讲,其实包括了行业的方方面面。其实AI的机会是很多的,单一的技术和一种组合式的技术和产品,都会很好的市场,这是一个基于AI和Deep Learning的时代。

关于英伟达在自动驾驶方面的应用,我们把自动驾驶变成一个AI的任务,它首先是模拟人去驾驶。第一,人坐在车里面,我肯定是眼睛会去看,我先看一下,我就知道我周围的情况是怎么样。第二,如果坐在车里,所以我精确的知道车的位置在哪里,意味着我可以基于现在的场景和我的位置,去做我的驾驶策略。这就是我们去把一个自动驾驶的过程,变成了一个AI的任务。

第一个,我们把它叫做感知,就是像人眼一样,我们会用多样的传感器,去把周围的环境的情况,首先是通过这种传感器了解。第二个,我们叫reasoning,判断我是否是安全。第三个就是驾驶。这个自动驾驶它是依托于高精度地图。高精度地图牵扯到两个层面,一个层面是高精度地图会给你丰富的环境屏障,环境信息。另一个层面,结合高精度地图,能够提供精确的定位。这些是自动驾驶比较重要的一些方面。

AI发展

现在人工智能时代,大家可以从这里面去看,有很多很多新的技术,包括一些新的创新,大家可以感受一下,现在的人工智能时代,其实它一直在往前发展,不管是软件还是硬件,不管是应用、架构、还是算法,都在不断地进步。

机器人或者说我们叫智能体的产品已经出了挺长时间,但是这种机器人的产品有一个问题,就是说机器人这种场景你真正去训练它的时候,其实是挺困难的,包括各种场景去模拟有比较大的困难。第一是时间长,第二,你不会去造很多机器人一块儿去学一些东西,这样的话,你的研发包括开发的周期长。

这次我们叫ISAAC的SIMULATOR,它其实是把Deep Learning的technology和模拟结合在一起,它能做什么?它其实是用模拟的平台去训练。比如说我训练一个机器人做一个打高尔夫球的动作,它去做模拟,这样的话,针对一个机器人的公司,它可以使用这样的模拟器可以同步做多个,或者是做多个机器人的模拟,或者是多个场景的模拟,甚至是一个场景多个机器人的模拟,这样的话,会极大的提升模拟以后开发的效率。

刚才有一个同学提了很好的问题,说现在AI是AI,VR是VR,会不会有一个结合的过程?其实我想说AI和VR的结合,其实有非常好的场景,也就是说我在VR里面,我会去模拟一个人,我们把这个人定义成一个智慧体,这个跟机器人是完全不同的场景,为什么这么说呢?因为你机器人如果是一个智慧体的话,比如我这个地方有一个机器人,那它就简单是一个机器人,它永远不会变,它长什么样就是什么样,但是如果是在一个虚拟世界里面,比如通过VR技术,它跟VR技术结合,比如说他自己会成长,他会学东西,他是一个智慧体,这个最早来自哪里呢?这个应用最早来自于电影里面会有这样的需求,比如电影里面我设一个人物,这个人物本身可以交互,可以学习,是一个类人体,但是它是计算机模拟出来的,电影行业其实刚开始有这样的需求。

但是我们发现这个需求它有一个破绽,比如说我可以训练一个,我在电脑中模拟一个孩子,这个天真无邪的小孩儿随着年龄的增长,他会变老,他是一个智慧体,智慧体说明什么呢?你可以跟他进行互动,你教他英语,他会英语,你教他说爸爸妈妈,他会叫爸爸妈妈,所以这样一个智慧体的商业应用价值我不知道,但是我觉得对人类带来的价值很大。

相关领域
商业