林元庆破解小度问鼎最强大脑三大原理，后吴恩达时代百度 AI 突围

新智元报道

作者：贾岳鹏

【新智元导读】《最强大脑》第四季最终回播出，百度人工智能机器人小度和人类一起问鼎“脑王”。小度在前两个环节（图像检索和人脸识别）表现优异，最后声纹识别项目挑战失败。成败背后的技术要点和难点是什么？本文为你带来最全解读。后附百度研究院院长林元庆对挑战赛技术原理、百度为何不做围棋AI、吴恩达走后百度人事架构的回答。

本季脑王共分三个环节，前两个环节人类选手和小度都参与了挑战（小度都成功了，两名人类选手都失败了），第三个环节则是小度和人类选手分别挑战不同的项目（结果小度失败，人类成功）。

最终结果：人类代表队和小度共同获得脑王。

节目很明显的一点，就是“机器 PK 人类”的色彩相比第一季时弱化了很多，最后展现结果时也没有特意将人和机器做对比。对此，百度研究院院长林元庆表示，这确实是节目组的设计，“最后没有比拼，而是希望以展现人和机器能够共存，机器能够帮助人，希望突出这样一个主题”。

整场挑战赛的三个环节（共四个项目）分别是：

挑战一：沧海桑田（小度VS人类选手）

比赛项目：根据一个很小很模糊的细节，找出这个细节是属于30张照片中哪一张，并且指出这个细节具体位于照片的哪个位置。匹配成功则挑战成功。

比赛结果：小度选择正确，人类选手（黄政）选对了照片，但是标注错了碎片在照片中的位置。

挑战二：亲爱的（小度VS人类选手）

比赛项目：嘉宾在40张父母合照中随机挑选一张，选手和小度同时观察该照片，在40位造型一致，身材接近的女生中，找到该父母的亲生女儿，找出的女儿手中全家福照片与父母合照背面的全家福完全一致，则挑战成功。

比赛结果：小度答对，人类选手（Alex）答错。

挑战三：永不消逝的电波（小度单独挑战）

项目规则：现场30段情景的说话声，与30个笑声相匹配；小度采集完整的30段说话声，随后根据嘉宾随机挑选的一个笑声，找到对应的说话声。正确找出则挑战成功

挑战结果：小度挑战失败。

挑战三：一字成书（人类选手单独挑战）

项目规则：现场20封由不同字体书写的家书，嘉宾随机选择一封，选手仅观察所选家书封面，判断所属字体，在232个四字重叠的叠字碎片墙中，找到属于该家书字体的所有字，全部找对，则挑战成功。

挑战结果：人类选手（陈智强）挑战成功。

脑王争霸赛比赛难点和技术分析

下面，我们就来具体看看，小度参与的三个项目都涉及了哪些技术，难点又在哪里。图片来自4月5日媒体观影会百度研究院院长林元庆演讲PPT。

挑战一：沧海桑田（图像检索）技术原理

这个技术其实很像百度常用的图像检索，拿一张照片来找到在互联网海量的照片中找到和它相似的照片。据悉，百度的这项技术已经在服务亿万的用户。

计算机进行图像识别，是利用分类和提取出图像的重要特征，并对多余的无用特征加以有效地排出。计算机所能提取出来的上述特征有时会较为明显，而有时也会非常的普通，这在极大程度上对计算机的识别效率造成一定影响。

因此，如何让图像特征抽取的过程更稳定，不受模糊、噪点等信息的干扰，让搜索结果更精准，是图像检索成功的关键。

这项挑战的难点：

比赛比平常的图像检索难度大大升级，老照片都是模糊、破损的，无法达到普通检索的要求，对算法造成了很大的干扰；
一般的图像检索中，图片中会有多个有效信息点来相互校验，但这次比赛提供的只是图片中的一小块，只有一个信息点。小度必须在线索少、干扰大的情况下，完成这个任务。

据介绍，百度基于真实用户图像检索场景的图像检索数据，构建了覆盖了多种真实的图像扰动大规模图像匹配训练集合。利用神经网络训练进行监督训练得到图像局部特征表示模型，该模型可以提取鲁棒的低维图像特征表示。基于该模型，百度实现了百亿规模的互联网图像的快速检索。

挑战二：找“女儿”（隔代识别）技术原理

嘉宾在40张父母合照中随机挑选一张，选手和小度同时观察该照片，在40位造型一致，身材接近的女生中，找到该父母的亲生女儿，找出的女儿手中全家福照片与父母合照背面的全家福完全一致，则挑战成功。

人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部的一系列相关技术。

这项挑战所涉及的“隔代识别”仍属于图像识别分类中的人脸识别，只是难度更大。隔代识别技术原理与人脸识别相同：形成灰度图，分别提取父母面部的特征点和孩子的特征点进行比对。

这项挑战的难点有几个：

首先，计算机需要从图像中识别出人脸。计算机需要识别并去除脸部周围的多余像素，如用椭圆遮罩，只显示内部的人脸区域而不是头发或图片背景，因为头发或背景的变化往往多于脸部区域。

其次，外在因素影响孩子的容貌，曾加识别难度。先天的脸型随着后天的生活状态、社会环境、个人经历的不同，也会发生较大的变化，甚至有整形的可能。也就是说，孩子离开父母很久的话，可能会朝着一个完全未知的方向去变化。

最后，遗传的不确定性。父母长相和孩子长相的相似性是不确定的，隔代人的面部特征有很大的差别，例如父母都是大眼睛，孩子却很有可能是小眼睛。给机器的干扰项要比有效信息项多。虽然可以通过机器学习和算法优化解决，但让机器排除干扰完成这个任务，仍然面临很大的挑战。

据百度方面介绍，在参加完前三期的《最强大脑》之后，百度大脑跨年龄人脸识别的能力飞速升级，现在已经成为一项可以稳定运用、服务社会的新技术。

挑战三：永不消逝的电波（声纹识别）技术原理

上面的图是比赛的实例解析，下面则是比赛原理还原（都来自林元庆演讲PPT）。

本次比赛对机器来说考的是声纹识别。

声纹识别和语音识别一样，都是通过对采集到的语音信号进行分析和处理，提取相应的特征或建立相应的模型，然后据此做出判断。两者不同的地方在于，语音识别是让机器听懂我们说的是什么，而声纹识别则是判断给定的一句话到底是谁说的。

声纹识别的理论基础是“每个人的说话特性都具有其独特的特征”，这主要是由生理构造（比如咽喉、鼻腔、口腔以及胸腔的形状、尺寸和位置），以及发声的操作方式决定的。正常说话时的声纹状态还是相对稳定的。但是，声纹特性仍然具有易变性，容易受身体状况、年龄、情绪等情况的干扰。

声纹识别从任务上来说，主要分为声纹确认技术（1:1）和声纹识别技术（1：N）两类。声纹确认技术回答的是两句话到底是不是一个人说的问题，而声纹识别技术回答的则是”给定的一句话属于样本库中谁说的”问题。

在本次挑战中，小度需要识别出一段笑声是谁发出的。技术上主要难点包括：

1. 泛化能力衡量一个机器学习算法好坏的一个重要指标，就是机器能够处理学习时没有遇见过的样本的能力，也即”泛化能力”。传统声纹识别任务，注册和测试是非常匹配的，即注册采用正常说话，测试也是正常说话。而在本次比赛中，注册的语音则变成了唱歌，测试的才是正常说话。因此，模型必须能够学到同一个人在唱歌和说话时的差异。这对声纹识别算法的泛化能力提出了更高的要求。

2. 测试声音的单调性 人在正常讲话时，是由各个发音器官协调运作而发出语音的，可以从中捕捉到说话人的一些个性特征。但是，笑声的发音非常单调，包含的有效信息非常少，因此提取说话人特征表征的难度大大增加。

3. 笑声的多变性声音本身具有易变性，而笑声更甚。比如说，一个人在笑的时候可以发出比较爽朗的笑声，或是比较自然的哼哼声，还有非常夸张的哈哈大笑，甚至是不张嘴的冷笑声。而本次挑战的项目对测试笑声并没有定义具体的标准，我们必须要尽可能全面地覆盖。

4. 信道与噪声问题信道与噪声问题一直是声纹识别领域的一个难点。据百度研究人员介绍，这次比赛时现场的信道与他们积累与收集的语音数据有很大不同，“想要收集到大量同信道的数据非常困难，我们必须要想办法将跨信道的影响降到最低”。

据悉，小度在此项挑战中失败的原因是：

百度声纹识别目前还无法在这么难的挑战上达成100%的正确率，存在一定的失败几率。未来会继续加强声纹识别的训练。

林元庆谈小度失败和吴恩达离开

4月5日，在百度举行的提前观片会上，百度研究院院长林元庆就本次比赛回答了记者提问。新智元没有参加观片会，以下是根据现场速记整理的内容（发布时有编辑）。

提问：前两个比赛都是小度和人类同时挑战一个项目，为什么最后一个是分开挑战不同项目？这样不对等，无法分出胜负。

林元庆：最后脑王盛典总体的基调不算是PK了，我们节目组决定希望还是把PK的成分降到比较低。虽然前面这两个有间接地在看人做做起怎么样、机器做起来怎么样，但最后结果展现的时候也没有说人和机器比多少怎么样。最后跟陈智强比的这块是非常创新的节目，这个环节是开放的，最后没有比拼，而是希望以展现人和机器能够共存，机器能够帮助人，希望突出这样一个主题。

提问：小度识别错误之后有分析出原因吗？是样本太少还是怎么样？

林元庆：后面的训练是非常大的，整体来说这个系统还是很好的，应该来说我们内部人和系统比较过，这个系统也是比人好，只是那天比赛的确实有一些随机性，有一道没有做起来，其实系统还是很好的。

提问：目前有很多比赛都是人跟围棋对弈，李开复最近也搞了德州扑克人机比赛，百度如何看待这种竞技类的项目，百度为什么不做？

林元庆：人工智能不是一个技术，是非常多的技术，包括围棋或者是德州扑克，这些只是人工智能这里面的一个分支，千万不要认为人工智能就是下围棋，或者人工智能就是人脸识别，不是这样的。人工智能这个里边领域非常多，百度的话人工智能是一千多个，当我们挑选这些方向的时候，我们会挑一些我们觉得非常有意义的方向，比如像人脸识别。当我们真正解决实实在在问题的时候，我们是很感动的。这些技术对这个社会来说是非常有用的，包括自己内部非常方便，我之前和媒体朋友提过，今年应该会在一百个景区落地刷脸，十一的时候，或者前一段清明节，一进到景区看到最壮观的就是排队，本来几个小时在这里玩，但是排队就几个小时，还不如刷脸进去，什么都不要，掏手机都不要。百度的话，我们决定哪些方向投入重兵来做，这是基于公司不同的战略考虑。

提问：私下有没有将人工智能与围棋手或者棋牌手对战，做测试？这个不是你们感兴趣的对吗？

林元庆：增强学习我们是有工作在做的，但是我们只是做的方向和他们很不一样，我不知道大家有没有注意到，前不久百度美国实验室出来一篇文章，，我们更看重的是这个方面，我们的目的也是这个，这些是非常有意义的探索。百度更希望做自己觉得有意义的方向。如果说 AlphaGo 没有人做，有可能百度会做，但是现在已经做出来了，并且已经做的很好了，这里面需要探索的东西我们认为没有那么多了。我们希望在我们一些特别感兴趣的方向上投入更大。

提问：吴恩达离开之后，百度在AI团队方面做了一些调整，这个整合会做哪些方面的工作？现在的进展怎么样？您所领导的这个实验室未来在新的体系内所承担的职责和研究方向是不是会有一些变化？

林元庆：百度在硅谷的实验室有两部分，一部分做无人车，一部分就是百度研究院。目前有两百多人，还会扩充，这是我们现在的规划。需要澄清一件事情，深度学习实验室本来就是属于百度研究院的，原来就是这样的，不是说在研究院之外。原来管三个方面，一个是深度学习，大数据实验室，还有硅谷的人工智能实验室，去年出来一个叫增强现实实验室，现在百度研究院是四个实验室，我现在是百度研究院的院长，负责这四个。

百度研究院本身就是属于AI体系，吴恩达在的时候负责整个AI体系加百度研究院，他走了之后，百度研究院这块我来接，整个AI体系在原来的基础上在增加了知识图谱等这些部门，这个也是实际情况，他还没有走的时候，像知识图谱、NLP我们在一起开会，有重要会的话我们都在一起开，这个也是AI非常重要的部门。

现在公司觉得，我们更应该把这两个部门整合在一起，这是非常自然的一个做法。在整个过程中，我个人来说没有感觉到一些非常大的变化，唯一的变化是他走了，其他都还是蛮稳定的，就是整个的团队，整个资源的协调这些应该都是本来就是这样的。

提问：您所领导的这些人工智能技术在商业化落地的过程当中，是你们自己团队推动吗？

林元庆：我们更多是提供技术，或者说我们百度研究院更多提供一些技术，我们很多技术其实第一轮的落地会在百度内部，因为百度本身有上百种各种各样的产品线，包括第一轮内部技术的落地、打磨，基本都会在百度内部完成。当这些技术做得比较好的时候，应该有相关的业务部门希望把这些东西推到外面去，这里面还有一个部门也是非常重要的部门，吴恩达在的时候我们就成立了，就是AI平台部门，这是一个挺大的、负责这些技术对内对外的孵化和商业化的落地，像人脸那个场景也是跟这几个团队合作的，公司在这块的话，现在已经有专门的团队做这个事情。

3月27日，新智元开源·生态AI技术峰会暨新智元2017创业大赛颁奖盛典隆重召开，包括“BAT”在内的中国主流 AI 公司、600多名行业精英齐聚，共同为2017中国人工智能的发展画上了浓墨重彩的一笔。

访问以下链接，回顾大会盛况：

阿里云栖社区：http://yq.aliyun.com/webinar/play/199
爱奇艺：http://www.iqiyi.com/l_19rrfgal1z.html
腾讯科技：http://v.qq.com/live/p/topic/26417/preview.html