Gigaom对话吴恩达：人工智能五年内最大的难题是迁移学习

2017年01月12日前后，百度首席科学家吴恩达接受了技术研究和分析公司Gigaom的专访，谈及了未来五年人工智能重要研究领域、中国人工智能研究以及人工智能与经济、社会关系等问题。

【吴恩达接受采访对话实录】

问：谈谈你在百度的日常工作吧。你们的人工智能团队在做什么？

答：我们从事基础人工智能技术的开发工作。所有技术，从语音识别到计算机视觉、自然语言处理、数据仓库、用户理解，我们用人工智能技术支持很多百度国际业务并孵化新业务方向。比如，在百度，所有主要业务线都已经转型使用了人工智能。从网页搜索、广告到机器翻译、给用户推荐饭馆等。所以，人工智能在百度很普遍了。除此之外，我们也看到了人工智能所带来的许多新机遇，比如改善基于对话的（基于聊天窗口）的医疗助理，或使用面部识别打造自动开门的十字转门。我们所有团队也在追求那些新的垂直领域里的机遇。

问：在基础研究领域，你有没有什么想做的事情？比如，那些或许有用但我们却搞不清楚其所以然的事情？

答：我们在基础研究领域做了很多工作，有趣的是，成功的基础研究一开始会以基础研究的面貌出现，但是，一旦你看到了它的应用价值，过一段时间后就会变得不那么基础了。我们做了很多这样的研究。可以说，在百度，早期的面部识别是以基础研究的面貌起步的，但是，这个服务如今融入产品中了，也服务着产品的百万用户。神经机器翻译最初也是一项基础研究。实际上，这个故事有着不广为人知的另一面：神经机器翻译是在中国开创、研发和使用的。美国公司的研发和使用是在百度之后。中国团队在某个研究领域领先其他国家，这只是例子之一。我们在计算机视觉方面的基础研究，比如，面部识别，也一直处于领先位置。今天，我们正在会学习的机器人和机器学习领域进行广泛的基础研究。我们的研究覆盖了从非常基础的研究到非常应用的研究的所有阶段。

问：百度团队是什么样子？通常你的团队的都是小规模的吗？团队以开发人员为重？你找到了一个成功的分配有限资源的办法了吗？

答：这个问题比较复杂。很多项目开始时是小规模的。比如，一年前，自动驾驶团队有22个人。但是在团队展现了自己的实力、初步显示出前景并制定一个深思熟虑过的商业计划后，公司就有理由为其团队建设注入庞大资源，如今团队可能有几百个成员。团队从最初的一个基础研究项目变成一个崭新的业务分支。所以很多项目都是从相对小的团队开始的，不过，在其迈入正轨而且价值也清晰了后，我们就能将其嵌入一个拥有很多成员（几十人甚至几百人）的团队中。

问：如今人工智能领域，你认为五年内可以解决的难题之一是什么?也就是今天很难解决但是五年后就会普遍加以实现的事情？

答：从研究角度出发，我认为迁移学习和多任务学习是我想试着解决的问题之一。今天，机器学习全部经济价值都是应用学习，从针对特定任务的标记数据中学习，比如通过大量标记数据人脸数据库学习识别面部。对于很多任务来说，特定垂直领域的数据并不足以支持系统建构。因此，迁移学习会是一个很有活力的领域，机器机器可以学会一个不同的任务。比如，学会大体上识别物体。学会大体上识别物体后，这个知识中有多少会对识别面部的特定目的有用。

从研究角度看，我认为这个非常非常有前途，现在也有广泛使用着的用于这类迁移学习的技术，不过有关如何实现的理论和最佳实践仍然处于相当早期阶段。我们之所以对迁移学习感到兴奋，其原因在于现代深度学习的巨大价值是针对我们拥有海量数据的问题。但是，也有很多问题领域，我们没有足够数据。比如语音识别。在一些语言中，比如普通话，我们有很多数据，但是那些只有少数人说的语言，我们的数据就不够庞大。所以，为了针对数据量不那么多的中国少数人所说的方言进行语音识别，能将从学习普通话中得到的东西进行迁移吗？我们的技术确实可以做到这一点，我们也正在做，但是，这一领域的进步能让人工智能有能力解决广泛得多的问题。

问：人工智能可以告诉我们任何有关人类智能的有用信息吗？或者，反过来，从人工智能那里获取的线索能帮助AI更好地工作吗？亦或是这种情形，人工智能和人类智能只是都用了「智能」这个词而已，两者没有任何相似之处？

答：从神经科学中获取的知识对当前人工智能的发展只有一丁点用。现实一点说，尽管神经科学研究了几个世纪，今天我们对人类大脑的工作方式几乎还是完全不了解，对大脑工作原理那点极为少量的知识仅能为人工智能提供一些并不可靠的灵感，不过，实际一点说，今天人工智能取得的成绩更多的是受计算机科学原理驱动的，而不是神经科学原理。我已经说过，在自动化人类所能的事情上，人工智能已经变得非常擅长了。比如，人非常善于语音识别，但是人工智能在语音识别上表现不好。人非常善于人脸识别，人工智能正在人脸识别上进展迅速。

事实证明，当我们试着将人类可以做的一件事情自动化而不是解决人类都无法完成的任务时，用于推进该人工智能技术的工具也会更好地发挥作用。原因很多，但是原因之一在于，当我们试着选择一个人类也可以胜任的任务，让人工智能参与进来时，我们就能深入找出人类怎么可以迅速完成这一任务原因。因此，在展望很多人工智能垂直领域时，我们当然可以做一些甚至人类自己都不很擅长的事情。我认为，现在亚马逊向我推荐的书目甚至比我妻子推荐的还要好。我妻子当然非常了解我，但是亚马逊能做到这个程度是因为它积累了大量有关我的浏览和阅读书目数据，这些数据远远多于被妻子看到的阅读书目。我大致认为，有了几个类似这样的例外，当人工智能试着自动化至少人类也能做到的事情时，就会进展神速。

问：您总是在预测人工智能将实现这个问题持保守意见，我认为您这样做的部分原因是因为担心公众狂热的期望会对人工智能研究科学造成灾难性后果，特别是关乎资金方面，我这样说对吗？

答：我很倾向实用性，并努力成为一名实用主义者。但是在这一点上我想提出一个略有不同的观点。如果我开始组建一个团队来治疗所有人的疾病，这是非常值得庆祝的事，因为这听起来简直就像是一个伟大的使命。但是坦率地说，在硅谷有时候目标太高就会不受欢迎并一定会有反对的观点出现。我们比较喜欢讨论怎么锚定月亮那样的话题，因为即使我们失败了还能锚定星星。

但我认为实际上目标太高会存在一个成本，所以如果你的目标是解决疟疾而不是组建团队解决世界所有的疾病，那么它可能会更有成效，对世界产生更大更好的影响。所以我认为，将人工智能应用于世界会产生更有意义的影响。我认为我们不仅可以通过自动驾驶汽车、人工智能物流改变交通运输，还可以通过人工智能完全地改变医疗。我们可以通过人工智能在世界上做出重大的改进。所以我所做的很多努力都是在为这些具体的、可行的事情做准备。因为我认为这对世界实际上更有成效，我们不会花时间去研究也几百年都不会到来的科幻小说场景。我认为这种为科幻小说花时间的事在硅谷是不受欢迎的。

话虽如此，但作为一个社会，我们需要从事做各种各样的事情。所以我认为有一些人努力解决疟疾，并希望通过盖茨基金会（Gates Foundations）和世界卫生组织（World Health Organization）帮助工作，而另外一些人努力解决人类所有疾病会让社会变得更好。我认为社会以不同的方式分配资源是一件好事。但我也认为这对我们领域的进步也是十分有帮助的。当我们思考「什么是我们有信心可以实现的任务？」对抗「什么是我们应该投资的进一步梦想？」，我们团队有一部分人在做这个，不过那只是我们整体努力的一个小方向。

问：你相信人工通用智能（AGI）的可能性吗？如果是的话，如果是的话，那你认为它是沿着我们已知技术的进化路径实现么，背后的摩尔定律，或者AGI是不是需要一个整体的根本性突破，而这个突破甚至是不能预料到的东西？

答：我认为实现AGI肯定需要多个突破，但这很可能会发生。因为有软件算法的突破和硬件可能的突破。然而，我发现很难预测这一突破是在十年后还是千年后出现。

问：您认为人类的创造力，如编写剧本或小说的能力是否需要另外一个AGI，或者就是现在我们掌握的技术？

答：我认为很多创造力其实是我们不太了解我们创造它的过程。例如，Garry Kasparov说他看到了深蓝（Deep Blue）创造性的下棋。作为技术专家，我知道国际象棋程序是如何运行的，在任务中通过投入惊人的计算量，深蓝能够下一步妙棋，而这一步妙棋可能在象棋大师眼里就是一种创造性的举措。我自己也研究过创造性过程，创造力是十分困难的工作，因为创造力是增加许多小模块并拼合到一起，然后建立起一个好像是从无到有的巨大事物。但是，如果有人没有看到所有的小模块，或拼合这些小模块成为创造性的物体有多难，那么我认为创造力的实质比它外表上看起来更加神奇。

我的艺术家朋友一遍又一遍地练习单个画笔，并一遍又一遍地画出类似的画，然后他就逐渐取得了进步。我的祖母是一个画家，她在完成一幅惊人的作品前都是一点点进步的，当你只看到最终的成果，而没有看到在完成最终成果之前做所的努力，那么你就会感到神奇。我认为你所做的所有工作都是通过一点点小增量达成的。

问：所以如果你回顾刚才所谈的内容，人类的创造力是可以计算化和可实现的，在合理的时间范围内。人类的创造力不是什么非常神秘的东西，或者说是超出我们能实现的范围的。您同意吗？

答：是的。要么通过偶然的绝佳的棋子移动，寻求一个人类还未想到的句子的解释，创造一个简单的艺术作品，我认为我们正在见证机器行为具有某种程度的创造性。我们很可能会继续看到这样循序渐进的进展，机器在今后几年内逐渐变得更有「创造性」。

问：您的团队在地理分布上是怎样的？大部分团队成员在哪里？

答：主要在北京。我们在美国有一个100人的团队，在北京也有一个大的团队，同时在上海和深圳也有一些小团队。

问：在机器人技术领域，你能看到不同国家和地区的发展重点。例如在日本，能明显看到将更多重心放在制造友好机器人上，去制造与人情感化连接的机器人，而不是与世界上其他部分所连接的机器人。那么在人工智能里面，是不是也有类似的情况？因为刚才您提到脸部识别来自中国。在人工智能领域，不同的公司、不同的地区或者是不同的国家是不是会对有些事情的看法也不同？

答：首先我认为在中国，语音识别是经济和商业模式带动发展的一个很好的例子。从产品层面来讲，我认为不同的商业压力和产品优先性会导致不同的国家在不同领域的投资更多或者是更少。在中国就有这样一些例子。

在中国，用手机键盘打中文字要比打英文更加痛苦。所以这反过来也推动了更好的移动端手机语音识别的发展。因此我觉得百度领先在语音识别领域取得的突破也是由于要为用户带来语音识别体验的强大产品压力的驱使。

至于机器翻译，你知道美国有很多关于神经机器翻译PR。很多人都不知道的一点是，神经机器翻译其实是在中国首次开创并得到发展的，之后又成为了产品。美国的一些大型公司都在这之后，我认为导致这个现象的其中一个原因是因为在中国，对将一些公开的内容翻译成中文的需求很大，而在美国这样一个说英语国家中，英语的内容非常多。当然中文的内容也很多，但是外国的内容译成中文会特别快，这是一种文化现象。然而世界上的英语内容已经非常多，所以说英语的人寻求对外语内容的翻译没有那么紧需。

人脸识别作为一种商业在中国发展迅猛，因为作为移动优先的社会，中国人习惯了在移动端进行大笔的金融交易。例如，你可以通过百度获得教育贷款，我们会基于你的贷款批给你一大笔钱，而这个申请你在手机上就可以完成。在我们通过手机给某个人发一大笔钱的时候，我们对确认这个人的身份就会产生强烈的兴趣。所以人脸识别就成为了要实现这一目标的关键技术。那些压力也意味着中国的人脸识别是另外一个发展迅猛的领域，其发展势头比其他国家都要快。

不管是在美国还是中国，在人工智能方面都有很多的创新。我猜还有其他的一些领域。英国在人工智能玩视频游戏方面进行了大量的投资。我个人不会在这一方面进行投资，但是我想不同的组织有不同的兴趣和优先性。

我认为如今人工智能的进步成为了一个全球化现象，而且中国有很多的创新正在发生，而英语世界国家还没有意识到这一点。这并不是因为保密的问题，我认为这是因为缺乏语言的流畅性。

例如，几周前我去参加NIPS大会，在不到一天的时间之内，所有会议上最重要的演讲都被总结或者是转写为中文，并发布在中国的网络上。所以说巴塞罗那一个英语会议转变成中文的知识，中国做的非常快并且非常高效。在不到一天的时间之内，很多中国的研究者就可以阅读我们在西班牙演讲的中文版。我认为正是很多中国人熟练的英语口语和写作能力才让这成为可能。

不幸的是，逆向的知识转换要慢得多。因为从全球范围来看，当前中国之外很多的研究者不说中文。所以当人们发明了很多东西，甚至已经在中国广泛传播，一些英语观众都浑然不知，有时候甚至是在一年之后，一个英语国家的公司发明了类似的东西之后这些技术才能传播开来。所以我希望自己能做的其中一件事情就是帮助提高相反方向知识转换的速度，因为如果我们能够让研究社区更加的全球化，那么全球的研究社区就会进步的越快。

我想有一些具体的例子。首先是在中国，普通话短句的语音识别在一年前超越了人类水平，但是这一成果在全球范围的知名度并不广，直到最近才被很多人熟知。我可以看到很多的例子，从语音识别领域取得的进步到神经机器翻译领域所取得的进步，再到中国率先建立了深度学习GPU处理器，但是我希望能够在中国初次发明之后，在美国也能够尽快看到这些成就。

问：您有没有一些网站或者是期刊可以推荐给我们的读者，以便让他们能够更加容易地查找信息？

答：在中国，传播知识的方式和美国不太相同。在中国，人工智能在社交媒体上传播特别快，而是传播的方式特别强大，如果不是亲身经历的话可能无法理解。另外，相关的网站非常多，但是很多都是中文网站。你们可以在Twitter/微博上关注我，我会看看该怎么帮助大家。

问：在你看来人类意识是什么？或者更确切地说，你相信人类意识从根本上来说是可计算的吗？

答：我不知道意识到底是什么。在哲学领域，对周围的人是否真正具有意识，或者说他们像是僵尸一样，以及机器人通过计算表现得好像它们具有意识一样等这些问题一直存在着争论。总而言之，我们如何知道除了我们之外的其他人都真正具有意识？还是说他们是机器人？

我并不认为意识是计算机从根本上来说无法实现的，确切地说，是我们应该如何去实现，而实现这一点是需要几十年还是几百年，我们还不清楚。