百度AI负责人林元庆复盘征战《最强大脑》

2016年12月14日，虎嗅对百度深度学习实验室（IDL）主任林元庆及其率领的团队进行了采访，主题是“小度”参与江苏卫视《最强大脑》的前台幕后。

彼时，我们已获悉相关节目将于2017年1月6日到1月20日间分三期播出，到场的四家媒体签署了保密协议，承诺不会提前泄露比赛结果及任何细节。

之所以提前半个多月接受采访，是因为深度学习团队刚从南京归来，兴奋劲儿尚未消退，讲述者记忆犹新，听者身临其境。

这三期节目播出后，“水哥”等明星选手的完败令粉丝们失望至极，网络推手借机煽情，似乎全人类都成了输家。

缘起

《最强大脑》是江苏卫视推出的大型科学竞技真人秀节目，原型是德国的《Super Brain》。

2014年开播以来，观众认识了一个又一个奇人。例如郑才千在4.5万个色块组成的“魔方墙”中“找茬”；“水哥”从同质、同量、同源的520杯水中找到拿给自己看过的那杯；“迷宫行者”鲍橒因“强到没对手”而退赛；“记忆大师”王峰用1小时记忆620张扑克牌；8岁的“辨音神童”孙亦廷从装满水的气球落地的声音精准判断坠落高度……

2014年-2016年，《最强大脑》连播三季，取得相当不错的成绩：

2014年，第一季播出，收视率从1.4%攀升到最后一期的2.7%，全年均值为1.7%；

2015年，第二季的收视率均值为2.1%，峰值出现在第十期为2.38%；

2016年，第三季的收视率均值为2.1%，峰值出现在第十一期为2.55%。

但观众总有审美疲劳的时候，《最强大脑》已经风光了三年，第四季如果还是老一套，收视率可能出现断崖式下跌。

犹豫2017年还要不要搞时，阿尔法狗的挑战令人工智能受到空前关注，江苏卫视抓住“救命稻草”。

但先要搞清楚“人机大战”能不能成立。对《最强大脑》稍微有了解就会知道，许多项目人类只能被机器碾压。比如王峰可以在1小时内记忆1984个数字，而低档PC能记多少个G全看硬盘容量。再比如识别牛身上的黑白花纹，随便一个破手机就能完胜人类“最强大脑”。

在科学家“外脑“参与下，江苏卫视花了一番功夫设计了三场“人机大战”：跨年龄人脸识别、语音识别、复杂条件下人脸识别。

江苏卫视向多家科技公司发出过“英雄帖”，最终百度接下这张“帖子”。

林元庆说百度并未参与比赛形式设计，只是和其它选手一样事先被告知比赛的大致方向，如“跨年龄人脸识别”，筹备时间只有两三个月。

江苏卫视设计“人机大战”的基本原则是 让人和机器在能力相当的领域较量。如果让人与机器比识别二维码或10位数乘以10位数，就贻笑大方了。题目的展示形式也尽量平衡人、机双方的特长，比如使用彩色照片是照顾了机器，而在展示时间和次数方面则迁就了人类（对机器来讲千分之一秒就足够了）。

回顾

第一场：比的是跨年龄识别，王峰出战“小度”

原定由郑才千出战。但是面对镜头，他突然说没有戴眼镜，无法比赛。另一位人脸识别高手李威说昨晚只睡了两小时……选手间推诿之际，队长王峰从评委席起身表示要参赛。郑才午、李威又说可以比，最终魏教授选择了王峰。

第一轮，展示20位“蜜蜂少女队”的动态表演录像（平均每人3秒），由嘉宾（章子怡）挑选其中两位4岁以前的照片，要求与录像中的女孩匹配。

比赛时，三张很小的照片在屏幕上展示一下，接着音乐响起，唱唱跳跳上来20个姑娘，每个姑娘在摄像机面前定格几秒钟。人和机器都是通过屏幕看到的。

第一张童年照的主人被双方轻松确认；

第二张王峰答错、“小度”却没有马上输出答案，林元庆说当时团队紧张到了极点。

百度科学家和Dr.魏一起去看，发现“小度”识别出来两个人，她们之间仅有万分之一的差异。原来节目组背着所有选手在20位少女中安插了一对儿双胞胎。章子怡恐怕是“托”，不然就是偶然选到双胞胎中一人的童年照片。根据这张照片，“小度”在20位少女中发现两个“疑似目标”，她们与照片的匹配度相差0.01%（即万分之一）。谜底揭晓后现场哗然，鼓掌雷动，为“小度”喝彩。

第二轮，先观察一位30岁以上的观众，随后将他从30张小学集体照（共有超过1000张脸）中找出（跨度将近20岁）。王峰、“小度”都顺利发现目标。

第一场比赛“小度”以3:2获胜。

第二场：比声纹识别

比赛时，先用帘子先挡着，大家都不知道后面有多少人。嘉宾周杰伦与其中3人通了电话，机器和人类选手听到的声音是被干扰的，模仿手机信号不好声音飘忽、断续的效果。然后帘子拉开，20多人表演大合唱，要我们把与周杰伦通话的“线人”识别出来。

第一名“线人”，孙亦廷、“小度”都没能识别出来。现场单独回放该人的话音的歌声时，普通人都能感到些“端倪”。这一方面是心理暗示在起作用，另一方面是21位专业歌手唱“单声部”，她们的声音融合得太好难以分辨。

第二名“线人”被孙亦廷听了出来，“小度”失手。

第三名“线人”没有被孙亦廷识别出来，“小度”成功扳回一局。

两场比过，1胜1平的“小度”立于不败之地。

在这种情况下，1月20日播出的第三场比赛被一部分观众视为“人类尊严之战”。

第三场：“弱光动态人脸识别”，由“水哥”披挂上阵

节目预设是3个盗贼带着口罩和帽子在灯光很暗的环境下抢劫，被高位摄像头、行车记录仪和手机偶然拍到。拍摄光线弱、人在迅速移动而且面孔被口罩、大沿帽遮挡。选手要从30名群众演员中找到3个“盗贼”。

最终“小度”以2:0获胜，但“水哥”三道题的备选答案中都包括正确选项。

这正是人与机器的得大不同：人会疲劳、会冲动、会心神不安、会有一念之差，机器不会。换一个时间、地点或者心情，“水哥”可能做出不同的选择。

深度学习

以跨年龄人脸识别为例，林元庆讲解了“深度学习”的原理。

众所周知，人的五官在长大后会变，脸型也有可能会变，还有可能整容。

王峰在现场发问：“这些志愿者里面，会不会有人整过容？”嘉宾回答：“这个不能说。整容与否这个因素，对人和机器都是一样的障碍，所以比赛依然是公平的。”

因此跨年龄“人脸识别”考验的不单纯是图像比对。

林元庆介绍说，他们做了一个深度学习框架：把人脸分为七个部位，给机器大量存在相互关系的照片以供训练、学习（如AAA号、DFK号与ABX号都是同一个人的照片），让机器自已总结哪些特征能够跨过岁月。在比赛前，百度机器人已经“学习”了2亿张照片，总结出72个关键点，进一步得到128维的特征。

“水哥”解释为什么失利时说：我每组都留下了两个备选答案（此次比赛，正确答案都包含其中）。二选一时，我就不看五官了，只用耳朵和鬓角的细节去校正。节目组后来告诉我，照片是一个月前拍的，“一个长了青春痘，一个刚刚理了发，另一个一直没理头发，头发长长了！”

学习了2亿张照片的“小度”经验更丰富，没有受“青春痘”、“头发长长”的影响。

值得注意的是，远不如机器“勤奋”的“水哥”只是惜败。说明人类，特别是有专长的人，有一些只可意会不可言传的能力。

“人机大战”下半场

去年王兴“中国互联网已经进入下半场”之论甚嚣尘上，也有许多人不以为然：没人知道整场比赛的全貌，凭什么断定上半场结束了？

“人机大战”倒是可以分为上、下半场：

上半场，人类为自己的败绩感到幸喜。从1776年瓦特发明蒸汽机，人类幸福地败于火车、汽车、飞机……二十世纪四十年代计算机被发明了出来，人类在引以为傲的智力领域又屡尝败绩，记忆、运算、应变……

下半场，人类对机器的每场胜利感到忧心忡忡。

其实只要机器仍能为人类所用，“可以替代人类工作”就一点不可怕。别的不说，各种交通工具（汽车、火车、轮船、飞机……）运输的货物用人力搬运就得用几十亿人。

在“人机大战”下半场，我们会痛并快乐着。一方面享受人工智能、深度学习的“福利”，另一方面担心机器人“功高震主”。

各式各样的比赛也会层出不穷，奥运会项目可以一个个拿来玩，比如和“人形机器人”打羽毛球、乒乓球……