郭毅可:机器不仅仅是可以创造现有的,还可以创造未知的

2017年05月25日,第二届大数据科学与工程国际会议在贵阳举行,会议主题为大数据科学引领与创新。

大会上,英国帝国理工学院数据科学研究所终生教授、所长郭毅可,以从机器学习到机器创造为题进行了演讲。

以下为观点提炼:

1、机器智能最高的极限是人的智能

2、人和机器之间有一个交互

3、AI实际上的发展是大数据的一个部分

4、机器不仅仅是可以创造现有的,还可以创造未知的

人工智能金融,人工智能,深度学习,大数据

以下为演讲速记整理(有删减):

我讲的题目是从机器学习到机器创造,实际上是真的敢去创造,这是我们研究的方向。

我们讲的时候,科学正在打架。不管怎么说,科学讲一句话很有道理,机器下围棋和个人下的是不一样的。机器和人的思维是很不一样的。我去年也做过这个报告。去年这个报告的时候,我有一个教授讨论这个问题,现在有一个假设,就是机器智能最高的极限是人的智能,我答应他今年这个报告讲这个问题,我也基本上是实现了。

首先带来两部分,先简单的解释一下,我理解的AI,再讲机器创造的部分。AI里面,很多,我在帝国理工的一个导师写的,就是所谓的第五代计算机,这个时候大量的研究问题,就是把一个AI的问题转换成算法的问题。最大的问题就是下象棋,就变成了规划问题来解决的。那个时候计算机大可以算出来。

后来到了重要的10年,有一个重要的问题,神经元还不那么热闹,AI主要是实施感知和信号处理。现在真正的自动车是在2005年就有第一辆的自动车,这个是跟着系统方程进行规划。这个就是运用这种理论进行目标调整。这种研究是在这个AI的时候很热闹。后来就是说,刚才徐院士说了一个问题就是推理和分析不同,到了2010年的时候AI进入到一个推理最大的实现,举一个例子就是人和机器辩论的时候,人辩论不过机器,问一个问题考研你一个问题,机器有很大的存储和逻辑推理能力。

现在AI知道,现在最厉害的一个问题,就是阿尔法狗,这个是深度学习算法,刚才徐院士讲的很多了。加上大数据,加上学习过程,我们强化学习也好,深度学习也好,这个在一起,导致了阿尔法狗很漂亮的算法,这个不是以搜索为标准,这个主要的问题是通过一个强化学习,对结构化的分析利用深度学习和强化结合做出的一个很好的算法。现在的算法越来越好。

实际上阿尔法狗怎么完的呢?就是两个机器对打,人是很难战胜他。这个时候导致了这样一个结果,就是说机器现在的一个智能已经可以在很大程度上胜过我们人类。

人和机器之间有一个交互。这些都是人工智能发展的一个。AI一个产品的构造,AI解决方案的构造已经节目化。我也跟上海一个公司一起做过事情,把所以AI的模块搭积木一样拼打成方案。就是要有领域知识的支持,这个是要分布在各个领域方面的,今天的AI怎么做就是一个很有趣的研究。

下面我就讲一讲创造。实际上我们已经到了新的智能文明的前沿。这还真不是一个忽悠,这真是我自己的一个看法。实际上我们今天站在一个非常有趣的时间,实际上过去把人变成机器,我们自动化,机器化,我们把机器变成人,那是一个非常有趣的科学的研究。

那么如果展开一下AI的技术图,我认为今天的AI实际上的发展是大数据的一个部分,没有大数据AI跟过去就没有什么区别,而今天的AI是完全不一样的。我们知道AI有三个主要的学习任务,一个是监督学习,一个是非监督学习。

现在主要讲非监督。还有一个是强化学习,那么在这个领域里面,你的数据大概有几个模态,一个是数据库的数据,就是关系的数据。一个有图,而非文字。那么我把整个的信号归在里面,那个里面有很多很多的应用了。刚才都说过了,就是徐院士举的最后一个例子,低精度到高精度的。我们图象的分割就是MI的例子,在图块上进行分析,这些技术都AI技术。

所以一个AI做得好不好跟你的数据源好不好有很大的关系,现在我的学生最大的问题不是算法不会,而是没有好数据,没有好数据就很困难,比如说我像生产一个机器人,跟我吵架,这个很有意思吧,我没有办法找。所以这个搞不清楚,所以这个里面不好弄,所以有大数据学习,是非常非常重要的。

今天主要讲这个,专门研究讲积极创造。这个模型和你的数据本合,很重要的一点就是说实际上就是一个展开复杂的方程。这是我们工程院很大的工作。还有一个研究就是做大数据的积极学习的后面的模型管理,模型多了以后还是麻烦。怎么样把这个模型管理起来,使以后的模型变模型。最后一个就是跟精准有关的。今天讲的主要的工作就是一个文化。

我们为什么要做这个研究,想的问题就是机器和人的本质。机器是不是在想问题。判断学习,这个数据给我了,我看看他有什么样的性质。有什么样的隐藏量或者有内在关系,这是最好的理解,最后强化学习是找到一个最后的策略,寻来寻去无非是到处找方向,那个节就是你要用的机器学习。

我们要两个模型,一个是生成模型,一个是判别模型。这是统计上的一个说法。实际上要做的就是变量,就是怎么样表达这个数据,怎么样理解他,只有理解他的变量深层次的分布,有了分布才有数据。这个来讲就是非监督学习。你的深层数据很重要,如果给我一个数据,最后生产出来,这里就有了一个基本的创造功能。

第二个是判别模型,你给一个数据给一个目标,我有了这个观察以后,我们判断这个类别的,所以它是一个条件数据的。深层模型,我们来对整个的数据进行建模,举一个例子吧,这个是李院士的一个报告,这个是李白写的一些五言绝句。我把这个隐变量写出来就有一个很好的模型。

怎么样生成模型呢?给一个随机变量。举一个例子,我有刚才的数据,我知道了这个隐变量。比如说我举一个例子,拿一个数字做索引,然后就可以作诗。我们讲一个概念就是机器创造,如果把生存模型学出来是可以创造的,大概的意思。实际上现在计算机写诗差不多就是这样的。

所以生成模型是具有创造性的。第一个特性化的数据,这个要发现韵律,计算机发现韵律是不容易的。这个时候就是要构成一个结构的空间,有了空间以后抽象,由简单的结构抽象。最后你就可以拿来总结,就会得到一个新的积极产生的一个项目。

这是一个积极创造的一个基本的,是现在,不说以后怎么办。这是第一步的工作,专注于生成模型,生成意味着理解,是创造的第一步。比如说有核磁共振的图,可以生成大脑的网区。你把一堆核磁共振的图拿过来,就可以做不同的模型,会生成不一样的脑区图。

现在在深度学习里面,最开始的算法其实就是生成模型。今天我稍微的讲一下,不简单的讲数学,而是讲实用基本思想。

那么编码,你要求出它的编码,求出他的数据,统计上来讲是有隐变量,最简单的方法,用学习的方法是说给你一个数据,后面的隐变量你要做什么呢,做两件事情,我用隐变量编码你,我最后可以恢复你,要求你什么东西呢,要恢复正确,原来的数据和恢复的数据之间的差要变小。虽然是没有标志的,把两个数据一给,我只要把中间两个生成一样就可以了。这是自编码的基本思想。当然也不能完全相等了,要相等的有一个线。

这里面呢,刚才院士也说了,我要求他有一些规矩,这就是给他一个信念。然后要求我能恢复原来的数据,我也不是恢复数据本身,而是分布。这个里面我涉及两个非常好的,就是保证这两个分布有一致性,这就是后面的一套数据。那么这些有一个问题,这个问题计算机的人很懒的,跟数学家不一样,我们找懒的办法,叫对抗生成网。所以要怎么办呢?就有最简单的办法,我是来做一个生成器,做一个自动生成器是否可以。

我给一个隐变量生成一个数据,这边给一个判断模式,要求什么东西呢?要求对这个判断模型来讲,我是无法区分这个,所以我要拼命区分真假,如果我们判断说明觉得不好,你就去改,当然我改到什么程度呢?改到判断不了,这两个在打架,一个是拼命的想骗你,一个不想被骗,最后就刻划了元素的分布。这个是对抗模型,给一个隐变量,进行判断,判断是真的还是假的,判断出来就可以学。那么这个对抗网络就很有意义,你突然可以非常有效的做很多生成模型,就可以做很多有意思的计算机的生成。

刚才徐院士讲的最后一个,机器的算法足来学习,实际上有一个物理模型,方程一大堆,然后你要观察,你要做的事情就是把隐藏不知道的部分生成,我们就可以生成动态系统。这是积极创造的一个部分。

我觉得机器正在创造,这本书不知道大家看过没有,这个书是小冰写的,这是小冰的训练。你给他一张图,他在手机上,你想想一下,小冰会写一首诗,你再给它一张图又会写一首诗,这个工作是机器做的。跟刚才说的例子是一样的。

机器不仅仅是可以创造现有的,还可以创造未知的。最近这个电影里面外星人的语言,这个是外星人的文字,这个做出来,这个就是机器可以创造出来的,这个是很好玩儿的事情。

实际上问题是什么呢,图灵测出来是一个误区。100年英国有一个纪念大会,我这个图片假设可能有一点过时,什么叫图灵假设。但是有一个问题,这个假定是在于人的智能是机器智能的极限。但是从现在机器智能很可能跟人的智能是不一样的,它是另外一种智能,所以这个比是没有意义。

所以我认为人类不要太傲慢,我们赋予机器不一样的智能,机器下棋跟我们人下棋不一样,过去的AI是以人为中心,它是基于人类的角度,是不是说我们一定是对的呢?为什么机器有不一样的呢?如果这样想问题的话,很多的事情就会完全的不同,所以我们不要太傲慢了。

相关领域
商业