在2016年11月的世界互联网大会后,百度总裁张亚勤接受新浪科技的采访时,提到现在人工智能大脑有四个模块,一个是语音和图像;还有一些视频;还有一个是自然语言对话;还有一个叫做用户画像。
以下为整理主要观点:
1、基于百度掌握的大数据、云计算和深度学习算法,把人工智能技术应用到各种具体场景下只是时间问题;
2、在医疗领域应用人工智能,不仅是基于团队兴趣,也是业务需要和用户需求;
3、目前百度在云计算、深度学习算法和大数据方面的能力,能够在医疗、金融、教育等领域都推出人工智能大脑;
4、百度的增长点,除了搜索,链接服务,还有4个增长点,一个是云,一个是车,一个是国际,一个是垂直业务;
以下为新浪科技专访百度总裁张亚勤的对话(节选):
新浪科技:之前有想过这么快就坐上无人车吗?
张亚勤:这个速度比我想象的要快。这也是机器学习的好处,机器学习一个车所收集的数据,你所学到的决策,它马上可以大规模复制,所以这个是相乘的效果,不是一个复制给多少个,它是这个一乘复制所有人。比如说我有一百辆车,每辆车收集的东西是不一样的,然后它是集合效应,然后“啪”就放到了一百多个车哪里,一百个车同时进行收集数据,进行离线的训练,等于说IQ马上是相乘的。
(拿)无人车来讲,包括上面的激光雷达,今天看到有3个十六线的激光雷达,扫盲区用的。这个是人工智能去挑战的东西,有视觉、有语音、有各种目标、有决策,以及行为规划,数据量其实很大,而且容错率很低。刚才我演讲里也谈到,自动驾驶等级里,L4和L3的区别是,L4的容错率基本是0。L3是一个有限的有条件下的一个自动驾驶的。L4的话,它在以后相当于美国的高速公路,你都可以无人驾驶。到了城区可能有问题,因为有行人的情况,会比较复杂一些。
新浪科技:除了无人车,上一次您和吴恩达博士一起发布了百度医疗大脑。那么下一步的话,在哪一些领域它可能推出类似人工智能的大脑,是按什么节奏,先后顺序是什么样的?
张亚勤:现在人工智能大脑有四个模块,先看这几个功能模块比较成熟的,一个是语音和图像,还有一些视频;还有一个是自然语言对话;还有一个叫做用户画像。这4个东西就是基本的功能模块,但是还有一些新东西不断开发出来,这些东西的组合可以用到不同的场景里面去。比如说度秘就是一个应用。我刚才也说了一下,度秘用语音功能里面去,然后像医疗也是利用知识图谱,包括对知识的理解、对话的逻辑、对自然语言的理解。所以有这样的场景都可以被克服。
里面的原因和逻辑是,机器可以很快把目前的资料都读了,人读则很慢,机器自己去读文献、去读病人病历,全部都读下来,它可以去查各种资料,就像AlphaGo,它基本上把棋谱都读了,读了之后还可以理解它,也可以结构化,把这种模型和模式找出来,任何有这样的东西,都可以用。
那医疗大脑来说,你比如说医生和病人交互,有很深的专业性,但专业性对于人工智能是一个好事,越专业说明这个数据越可模型化、更模式化,越容易找到里面的标签。
第二点就是自然对话的过程,其实人和对话的效率并不是很高,你可以问很多重复的问题,问了问题之后,他答的可能未必是医生有用的信息,这个对话会消耗很长的时间。如果用机器和人对话的时候,你会发现,机器如果发现是废话,就会跳过去。第二点把流程减到最低,因为至少把医生的时间省出来了,然后最后等医生看到这个机器结果,就知道大致是怎么回事。
然后好处就是说,你做的越多,机器就能做得越好。你看我们系统里面,病人和医生也有对话,它可以学习怎么对话,然后把很多东西综合起来,然后越来越好。
这些东西其实对于基层医生很有好处,因为可能这些医生的水平比较低,但他们学到的是专业医生的三甲医院顶级医生的知识。而对这个顶级医生的话,现在是辅助诊断治疗的功能,给作出最后诊断。最后这个诊断信息又可以反馈给基层医生用。这种自我学习、自我完善、自我提高的过程非常好。
现在问诊,我们有一个数据在做这件事。当数据多的时候,可以分成不同的病理种类,比如说这里面有肺病、有高血压、心脏病、冠心病这类型的,有人可能是偏癌的这种东西越垂直数据越多越精确,我想这种东西数据越多,这些是一个方向。
新浪科技:做医疗大脑是因为刚性需求,还是因为说您和吴恩达教授这边兴趣比较大、比较愿意做这个?
张亚勤:这也是个需求。因为我们做“百度医生”快两年。其实我们从一开始就希望做这件事,但刚开始没有那么多数据。刚开始通过挂号、问诊、咨询可以把这些数据收集起来。同时这里面我们也建立一些数据的模型,比如数据挖掘,更多像专家系统类似那样的东西,现在数据到了一定程度可以做深度学习了,否则你这个没法做深度学习,我们现在用贝叶斯用了各种不同的统计模型,也是人工智能,不是深度学习的,多层次的网络。
现在的话,因为吴恩达原来那个团队,他们一直在做这件事,在美国也好、在国内也好,大数据的团队做类似的事情,一直在合作。从开始的产品,更多是研究,到一定程度研究做的相对可以使用,放到产品里面,现在还在不断改进。下面你会看到我们应用到教育方面,里面也会谈到怎么用人工智能的方式,帮助教学,个性化的路径、知识图谱讲这些东西。
新浪科技:总之已经有了大脑,然后百度又有数据方面的资源?
张亚勤:对,以后你可以看到我们有一个最底层的支持,是百度云。目前大脑里面有硬件的基础设施了,有很多算法。然后再上面我们会有各种不同的垂直的应用,比如说教育。大脑方面,有一个百度教育大脑、医疗大脑,各种大脑,各方面都会用。其中应用到风控,就是金融大脑。风控是一个特别典型的对于信用的分析,这是大数据、人工智能和机器学习的长处。
新浪科技:另外今年您分管的百度地图,在国际化业务方面推进很快,背后原因是什么?
张亚勤:对我们来讲,国际化业务有几个方面,一个方面就是要满足一些刚需,看到百度地图在中国国内体验的很好,很多人在使用。到国外之后,发现没法用,打开这个地图没有数据,这是解决急需的需求。所以对我们来讲,很多国家的数据,我们都是用的开放数据,这些数据质量现在还不够高,定位不够准,所以我们在一些华人出行比较多的地方,我们在把这个数据变得更精准。
包括像日本、东南亚包括像澳洲,即我们出行最多的地方。因为这个东西很重要,一个是知道在什么地方,可以定位、可以导航,上面有很多商业的数据,你可以找中国餐馆。可以去买免税商品,你可以叫懂华语的车,加上机器翻译里还有翻译,这个东西我觉得现在每年有将近2亿出行的人次,在2016年是2亿出行人次,所以我觉这是一个很重要的需求。另外我们国际化移动化的矩阵,这个发展相当快,目前已经到了三亿的月活,也有很好的商业模式。所以国际化的团队做的是不错的。
新浪科技:国际化为什么选巴西?
张亚勤:当时选择这个国家的时候,就是希望选一个体量比较大的,一个是移动化程度相对比较高的,移动互联处于快要爆发的国家,当时对巴西是这么一个判断。但是巴西经济很差,所以我们现在在巴西也是布局阶段。比如当时买的那个巴西公司,现在占70%的市场份额,当时是30%。巴西也是过了补贴的阶段,现在也是用产品体验来赢得市场。整个O2O领域都是,以前都是粗放式的,靠流量、靠补贴、靠烧钱经济,但现在都过去了。
其实也是我们最近传递的一个主要声音。为什么Robin讲移动互联的红利,当然这个领域还会稳步的发展,但是过去我砸钱给用户,靠流量这种已经都过去了。智能手机,光靠流量和用户的增长是不够的。现在回归到技术,回归到真正把产品做好,所以百度世界大会主线要谈人工智能,要谈技术作为核心。
新浪科技:今年百度也格外强调云计算的能力,您怎么看?
张亚勤:原来我们等于分成两个,一个是百度云盘,更多是个人,是C端业务。另一个是B端的。我们做云的话,因为百度本身是一个云公司,我们本身就出生在云上。但是做2B端的公有云,是最近一年多不到两年的时间才开始的。
为什么这么晚才做呢?主要就是云在早期刚刚开始的时候,前面几年更多的还是做基础设施,靠计算、靠重组、靠网络、靠数据库,靠基础的设施。这些方面含金量没有那么大,我们这些都有。现在云也在发生变化,也在往上面走,包括Facebook,包括SASS,我们基础设施方面本身就有优势,支持搜索,支持视频,支持这样的业务,本身已经是云文化了。
另外一点,现在B端提供的IS,还要提供更多的技术含量的东西,所以我们现在为什么说我们的云是大数据和AI三位一体的。我们提供的包括AI的平台,像paddlepaddle、百度大脑这些东西,我们都会放在云上面去,云识别,头像识别,云处理,用户的画像,还有商业的逻辑,支持拓扑,全部放在云上面。这个时候我们就有优势了。
做一件事我们到底有什么核心优势?这个地方就是优势。今年会大规模去把云服务推出去,这是百度下面这几年主要的业务和增长点之一。我在世界大会也谈过,我们的增长点,除了搜索,链接服务,还有4个增长点,一个是云,一个是车,一个是国际,一个是垂直业务,比如金融、医疗、教育等这几个大的增长点。而且这里面核心的东西还是技术。刚才我讲,所有差异化还是靠AI的技术,大数据分析技术。如果我们能很好的执行,我想每个领域都有可能打造一个新百度。
新浪科技:在美国大选后,Robin还专门发帖说中国的机会来了。那在人工智能时代,中国有无弯道超车的机会?
张亚勤:如果你看一下PC时代,包括在PC互联网时代,中国公司基本上是跟随的。到了移动互联时代,过去的五年六年,中国互联网公司忽然就发展起来了。为什么?
因为体量大,应用到了很多新的场景,更多本地化,基本上还是靠用户、靠流量,也有一些创新的服务,本身并不靠很多技术的优势。到了人工智能时代的话,刚才我讲的那些红利消失之后,我觉得是中国的机会。为什么呢?
你看人工智能三要素,一个是算法,一个是计算能力,一个是数据。从算法来讲,目前大家差不多,和国外基本上同一起跑线上。比如说现在机器学习的算法,我们百度做的,和微软做的,和Facebook做的,和Google做的,我觉得大家在同一条起跑线上,都是同样一个水准。
国内则是我们做得最好,我不能讲比他们做得好,但是我想也不差,基本上在同样一个level上。但是真正让AI起作用的,真正创新的是三个的结合,是数据和运算能力。运算能力我们相当强,刚才也说了,几十万台服务器,最大的云联网络,GPU、CPU集群。我觉得我们这个是强的,至少也和国际企业有竞争力。
但最重要的还是数据,比如用户的行为数据,包括搜索数据,交易数据,这些知识图谱,每个地方是不一样的。这么多年我们收集这么多数据,在中国一定是有优势的。
所以我觉得在这个时代,而且这些数据本身慢慢映射到别的区域,类似的区域。所以我不能讲我们在美国比微软,Google,Facebook有优势,但是在很多别的地方也许我们更有优势,比如说东南亚,比如说到一些发展中国家,我们中国不会比美国互联网企业像PC时代那样。
而且还有一点,我其实说过,中国的互联网公司这么多年竞争十分激烈,知道怎么竞争,竞争的程度其实远远超过美国,这个也很重要。我们在国内充分竞争之后,出去之后都能打仗了。
所以靠我们技术,靠数据,靠大家这种狼性,中国是有希望。而且你看人工智能,有一个数据,华人在人工智能算法理论技术方面是第一。前面好几位都是华人,这个也很重要,对于中国成为时代的领先者。有些华人可能未必都到中国的公司,没有关系。因为他也贡献力量。
不过对特朗普当选和具体施政,这些东西现在很难判断。因为刚开始竞选和真正的施政方针还是有一点差距的。如果按照他当时竞选承诺的话,我觉得美国是大的退步。包括大选、种族主义这些,国家在封闭,这其实和美国这么多年繁荣的原因是完全180度。
我不认为他讲那些东西他会去实施,第二点我想他想实施,也实施不下去,因为还有国会,包括共和党,对他的政见也不认同。特普朗是一个生意人,是一个buissnessman,是一个商人,我认为他做的事一定要符合一个是国家利益,一个是符合大的趋势。大的趋势是全球化。是人才的流动。
我认为,实在不行美国四年后再把他选下去。所以我不知道,这个有不确定性。但总而言之我认为长期还是靠技术,靠企业的发展,政治的力量是有限的。
新浪科技:您现在百度负责很多的业务,有没有工作权重的划分,或者您自己有没有兴趣和偏好的方面?
张亚勤:一切以公司利益为重。
不过我还是比较喜欢产品技术方面的东西,对营收想得少一点。还是偏多产品和技术。当然每个业务都有商业模式,我认为商业模式本身也很有意思,但比如具体签合同,这些也不是我的兴趣,这些可以做的人多得很。最重要的我还是想一些趋势性的东西,产品的东西,包括技术方面的东西。
新浪科技:还负责了很多创新业务,百度内部或者您自己怎么帮助他们从0到1或者1到100?
张亚勤:靠他们,所以一定要找到最厉害的人。有的时候必须要认识到一点,个人的智商也好,还有你的能力也好,宽度都是有限的。
你可以提供一些建议,一个是产业变化得更快,一个是复杂,那么多的行业,很多是面向消费者,面向小孩的,我不可能都懂,我希望能找到正确的人,给他们赋能,有的时候可能根据我的想法,观察我的经验,给他们一些意见,最终他们要做决定。我要每天做决定,那我太累了。