Google首席科学家李飞飞：机器将会如何看懂这个世界？

2017年01月13日，极客公园创新大会（GeekPark Innovation Festival）在751D•Park 北京时尚设计广场举行。

李飞飞应邀参加了大会，讲述了人工智能的演变以及机器将会如何看懂这个世界。

李飞飞演讲要点如下：

1、智能的机器需要两个特别重要的元素：感知和对含义的理解与推断；

2、hand-design rules的3个比较大的致命问题；

3、深度学习和神经网络为何发生了一次井喷式的成长和革命？

4、计算机视觉和人工智能的未来趋势。

人物，李飞飞,李飞飞,人工智能,机器学习,计算机视觉,智能机器

以下为李飞飞演讲实录，稍作编辑：

我今天带来的，是比较学术的演讲。我想跟大家分享一下人工智能，站在我自己的实验室的角度，过去的发展的路径，和我们最近在做的一些工作。

像我刚才跟张鹏说，我出生在北京、生长在成都，但是我在大学之间就去了美国，所以我的中文不是特别好，我尽量尝试着用中文讲座。

人工智能到今天，已经带来了一场革命的开始，不管是天上、地下、云上、手机上，我们都会看到它给我们带来的一些兴奋的可能性。

其实，智能这个问题，从人类文明的最初期，有了人，就有了这个问题。

不知道大家认不认识这位法国的哲学家迪卡尔，他在17世纪就提出来了“我思故我在”。其实，从那个时候包括之前，哲学家们就开始思考，什么是 thinking、什么是being 。

人工智能没有那么长的时间，人类的历史有上千年的历史，但人工智能只有大概60年的历史。人工智能的早期，一个奠基性的人物是阿兰图灵，大家都知道图灵是个数学家。大概在五六十年前，图灵开始思考，怎么去创造一个thinking machine。他说，“要建造一个智能的机器的话，可能最好的方法就是，通过最好的感官来提供给它，让它能够学会，并且使用应用语言。”

智能机器需要两个特别重要的元素：感知和对含义的理解与推断

1、感知。我们可以看人最大的感知系统是视觉，人还有其他的感知系统，机器也可以有其它的感知系统，但视觉是一个最大的感知系统。

2、对含义的理解和推断。语言，基本上是人类最特别的一个能力，大多数人都会同意，动物是没有这样的能力的。

所以，图灵远远没有建立起人工智能这个领域。但是，他带来了最起初的一些重要的思想元素。就是说，我们要做一个会思考的机器，里面需要包括：视觉、语言。

图灵之后，有这么一位科学家，在座的同学们，可能都没有听说过他，他实际上是计算机界的一位泰斗，他是跟马文.明斯基他们在MIT第一批读人工智能的博士生，后来他到斯坦福做教授，他的名字叫Terry Winograd。

Terry是人工智能界，第一代把图灵的思想贯穿下去的一个人。而且，他也是现在在世的计算机界，一个最伟大的计算机科学家之一。他不光在人工智能领域，做了最重要的工作，而且他后来转行去做人机交互，也把这个领域重新带动了起来。

而且最有意思的是，第一他长得很像爱因斯坦（很多人都说他像爱因斯坦），第二他是我的邻居，这是我们俩在我们的房子面前，我的背后是我的家、他的背后是他的家。所以，能住在这么一个泰斗级别的老教授的旁边，我一直觉得很幸福。

Terry带来了什么呢？Terry把人工智能，怎么去建造一个思考的机器。他说一个人，或者一个机器，要去理解世界，需要去感知。感知以后，需要做的第一件事是对这个世界的结构进行理解。

所以，叫Syntax Understanding。Syntax在自然语言处理领域叫语法，在计算机视觉这个领域可能叫三维结构。

Terry就说，Syntax以后，我们需要理解Semantics（语义）。Semantis做的事情就是 understanding Meaning（了解含义），语言有语言的含义，视觉有物体、有动作，有视觉的含义。

最后，当我们把Semantics和Syntax解决以后，智能的机器或者是人，主要解决的问题就是Inference ，Inference就是统计推导、统计推理这个过程。

所以Terry看来，要实现人工智能，需要有这3个要素：Syntax、Semantics、Inference 。

有了这样的思想框架做引导，Terry写了一篇在人工智能历史上非常重要的博士毕业论文。这个论文给了我们一个system，我不知道在座有没有同学或同行们，听说过这个SHRDLU，它用一个像积木一样的世界，用积木搭建了一个世界，在这个世界里，让我们来完成Syntax（语法）、Semantics（语义）、Inference（推导）这样的loop（循环）。

所以，在SHRDLU这个系统里，可以命令这个系统，你能不能拿起一个组块？这个计算机，就会把在红色的组块上面的绿色的组块先移走，然后把这个红色的组块拿起来。

再有一个指令是：把一个比你高一点组块给找出来，放进这个灰色的盒子里面。这个系统就会看，这个红色的积木是最高的，我们就把它放在灰色的盒子里面。

这个系统，不断的接受人的指令，来完成这件事情。这个过程，必须先把这个指令的语法给理解了，然后再把它的语义给理解了，然后来做这个指令。

这篇论文是70年代初写的，从70年代初一直到80年代末90年代。其实，人工智能貌似没有太多的发展，因为至少站在业界外，大家听到的人工智能的声音不是特别多。

为什么呢？如果70年代就有一个计算机系统，可以理解人的指令。为什么我们到2016年，才关注到人工智能？2016年，亚马逊的Echo和Alexa，也好像做的事情区别不大。

最大的问题在哪里呢？为什么60年代、70年代、80年代的人工智，能没有我们预期的做得那么好，问题出在它的演进的过程。

hand-design rules的3个比较大的致命问题

在机器学习这个领域崛起之前，人工智能的系统都是hand-design rules（手动设计规则），这张幻灯片不是让你看到里面的rule是什么，而是让你感到这个rule 有多复杂，而且都完全是用手工，用科学家的聪明的脑袋，想出来的rule。

这些rule，会有什么样的问题？其实Terry这样绝顶聪明的人，他能建立这个系统，这个rule肯定已经是包罗万象了，但是这些rule还是有3个比较大的致命问题：

1、scalable（可扩展的）。你不可能把天下所有的rule，都写进一个程序。比如说，大家用苹果手机有siri，你跟siri说“call me Fred”，siri就说“OK，这个听起来不错”。你再问一句「call me when you get a chance 」？”。这时siri就看不懂了，siri就说，你喜欢让我叫你「when you get a chance 」？。这就是hand-design rules出的差错。

2、adaptable（可适应的）。当你给系统设计这个rule的时候，你很难把它转换到另外一个rule。比如说，英文的语法、语义，我可以设计很多rule。可是，我要把它放进中文，它的语法就完全不一样了，我就得重新设计出来一套rule。

你可以想象，这不光是在自然语言处理中，比如说我设计一个怎么去看一个椅子，我可以设计一堆rule，但是换成一只猫的时候，所有椅子的rule，都不能再重复了，这是hand-design rules的第二个问题。

3、它是一个closed word。它要selmu，我们把这个word都了解了。所以，我可以把这个rule给come ples，但是这是一个非常大的工程，实际我们的大千世界是很难做这样的工程的。

所以说，hand-design rules在AI这个领域发展的早期，给我们带来了一些曙光，但是它并没有把我们带进真正的光明。

深度学习和神经网络为何发生了一次井喷式的成长和革命？

到了80年代开始，一个重要的子领域在人工智能领域开始发展，就是机器学习。

机器学习是什么呢？机器学习和传统学习最大的区别，我在这里给大家画出来了。你可以想象，传统的学习，是用人认识这个知识，然后再灌输给它，让机器学习，这就像泰瑞他们做的事情一样。

但是，机器学习不一样，机器学习是把认知知识这一层给省掉了，可以直接把数据放进学习组件，让这个学习组件去学习一个知识，这个知识可以发挥作用。

所以，这是机器学习和人类学习最大本质上思路上的差别。

在机器学习这个领域蓬勃发展的过程中，就出现了很多很多不同的算法种类，我今天就没法跟大家详尽的一一说了。

但最近一个特别重要的算法，就是所谓的Artificial Neural Network ，从80年代开始，它叫神经网络。神经网络有很长的历史，50年代Rosenbatt ，就提出了PERCEPTRON这个概念，这个概念就是把这些细胞怎么结合起来，然后一层一层地输入数据，然后输入结果（take layers of input and take output）。

到了60年代初，一个重要的神经生物学的发现，又推动了这个思路，这就是Huble and Wiesel ，在通过对猫的脑子做实验的时候发现，哺乳动物视觉的感知，实际就有这种神经网络的概念，它是一层一层的细胞不断的推进，从简单的层面到复杂的层面。

到了1980年，70年代末，一个重要的日本计算机科学家，叫Fukushima，做出了第一个Neocognnitron的神经网络，可以识别数字和字母。

到了90年代末，通过Geoffrey Hinton、Yan LeCun进一步的把学习的rules更优化了以后，就出现了今天大家比较熟悉的卷积神经网络。

最近，给我们带来最大的一次神经网络，或者叫深度学习冲击的work，是2012年Alex Krizhevsky和他的导师Geoffrey Hinton，一块写的 AlexNet，其实AlexNet和1998年的Convolutional Neural Networks区别不大。但是，为什么在2012年这个大致的历史时期，深度学习和神经网络发生了一次井喷式的成长和革命呢？是因为3个重要的因素：

1、这些算法的不断优化和成长。

2、互联网给我们带来的海量数据，这也是我和我的学生们，在9年前做的一项工作ImageNet。

3、硬件的发展。

所以很多人就说，Deep Learning的三个Ingredients : Algorithms（算法）Data（数据），Computation（运算）。它给我们带来了一次革命性的飞跃。

有了这个深度学习和机器学习的崛起，我们其实可以重新回到阿兰图灵和Terry给我们搭建的AI大的思路和框架里，重新解决一些在没有机器学习前完全解决不了的问题。

比如说，计算机视觉里面Syntax这个问题，这个问题实际上就是三维场景的结构，视觉世界的结构。这个问题，在过去的二三十年，有了长足的发展，用了很多跟机器学习的方法。今天，为什么无人车可以开始产业化，在算法方面很大的原因要感谢3D视觉，这几十年来的成就。这是其中一部分。

第二部分，我们说Semantics这个问题，在计算机视觉里面它是物体分类、场景分类、物体切割这些。这个领域，也是在这几年有蓬勃的发展，我们 Image Captioning团队一直在主持一个国际上的竞赛。从2010年开始，一直到2015年、2016年，机器的进步，已经基本上达到了，甚至它有时候超越了人的水平。你现在看到的这幅图是机器的错误率，2010年第一界Image Captioning的时候，错误率还在28%左右。到了去年2015年，这个错误率已经到了3.6%，人也差不多就是这个水平。所以，这是一个非常长足的进步。

刚才，我给大家分享的是两个单独的元素：Syntax、Semantics。其实，就像Terry提出的一样，要真正做好AI，要把这些元素全部结合起来。我们一步一步来看，下一步要结合的是Syntax、Semantics在计算机视觉里面它就是场景结构和语义，或者物体含义，一块的融合。

这项工作，也有不少人做，前段时间斯坦福的另外一位计算机视觉教授搜沃塞维塞西，他们做了项比较重要的工作，就把这个3D的建模和物体场景的识别，结合起来了。

我们再往下推进一步，可以看出，我们现在在尽量完善这个图片。我们现在把 Language加进来，结合Vision，这是阿兰图灵给我们提出来的人的智能终极目标之一。

所以，Language和Vision，是最近人工智能界非常关注的点。

下面这个工作，主要结合的是Syntax和 Inference，它结合了Semantics，这是我的实验室最近和Facebook的一次合作。我们联合发现了一个Benchmark（标杆），它的意义是什么呢？我们跟ImageNet比较一下，ImageNet主要在测试机器对Semantics的认知能力，就是物体分类。

这项工作，我们把它取名叫CLEVR，它测试的是机器对Language Vision在Syntax和Inference方面能达到多好，它跟ImageNet基本上是反的。

具体是怎么做呢？具体我们用了一个图像引擎，去模仿很多很多的场景，又回到了更像积木一样的世界。

在这些场景里面，我们又自动生成了很多问题。比如说，这张图里有没有和半球一样大的积木？这些问题是在挑战这个计算机系统对场景结构的理解，这个结构里面包括物体的大小，或者物体的材料，包括数字计算，也包括比较的能力，也包括空间的关系，最后包括逻辑运算。所以，这在测试计算机好几层的能力。

这个数据库，组成了很多很多不同的场景，提出了很多不同的问题。然后，我们就可以通过用最好的深度学习模型，来测试计算机做的怎么样。其中最好的，比如用CNN和LSTM,没有听过也没有关系，这是一种深度学习的模型。然后我们就会发现，计算机现在远远达不到人类的，比如数数能力，或者现在对材料的分析还不够好。而且，我们也远远达不到比较的能力，人是很容易比较出一个东西比另外一个东西大，计算机现在还远远没有达到。

所以说，这项工作还告诉我们，在Syntaxt和Inference方面，人工智能其实还任重道远，CLEVR这个Benchmark（基准），就给我们指出了一些比较明确的方向。

最后一点，我们怎么把language、Syntax 和 Semantics一块融合进来？这是最近我们做的一系列关于看图说话的工作。看图说话就是，一个图片进来，我希望这个计算机讲出一个故事，比如一句话“两个男人在玩飞盘”。这个模型，我们是用了一个图片的模型，再加上一个语言的模型。

图片的模型用的是卷机神经网络，语言的模型用的是一个LSTM。

刚开始，这个计算机在还没有足够学习能力的时候，给出的语句是非常傻的，慢慢的它就开始学习这个图片的内容了。到了最后，它可以说出其中的内容。

这是另外一个例子，计算机自动产生的一句话。最近，我们把这个工作推动了，看图说话不光是说一句话，可以说很多句话，因为每一幅图里面有很多很多内容。所以，这幅图我们可以让计算机说出好几句不同的，关于这幅图片的话。这是另外一个例子。

看图说话，不光可以说几句话，可以说一段话，这是还没有被发表的，最近最新的工作，这是我们实验室的两位学生，可以给计算机看一幅图，说出整个一段跟这个场景有关的话，这是我们最近最新的一个工作。

计算机视觉和人工智能的未来趋势

在我结束之前，跟大家分享一下，我们认为下一步计算机视觉和人工智能，包括自然语言处理，还要往下怎么走。

泰瑞和图灵，给我们指出了这个结合Syntaxt，Inference和Semantics的路径，我们远远还没有完成这个愿景。比如说这幅图，现在计算机视觉可以告诉我们，这个图里有一些人，甚至这幅图的三维结构是什么，或者给我们一句话或者给我们几句话、N句话，就像刚才我们看的。

但是，我们人看到的远远不止这些，我们人看到的是一个非常有意思的故事，我们知道这里面的人是谁，我们知道他们的关系是什么，我们知道他们的情绪是什么，我们知道这幅图的幽默点在哪里。它可以给我们带来很多很多信息，这是计算机现在远远没有达到的。

所以，刚才很快的给大家分享的内容，主要是我的一个博士生杰斯顿江森做的，谢谢大家跟我一块分享最近的工作。