观点记@今日头条李磊:其实能够代替专业记者的写稿机器人早已问世!
观点记
未来用人工智能可以大大促进信息交流和内容创作。从质量上看,我们从去年8月份开始到现在一共写了2万多篇文章,读者阅读率是16%,对比记者写的文章也是这个数字,也就是说我们机器人写的文章质量和人是接近的。
综合整理自现场速记、看苏州
李磊,今日头条人工智能实验室研究科学家与技术总监,原百度美国深度学习实验室少帅科学家 。上海交通大学计算机系本科,卡耐基梅隆大学计算机系博士,加州大学伯克利分校博士后研究员。
12月23日,李磊在2017中国人工智能产业年会主题报告环节以“机器写稿与AI辅助创作”为题,展示今日头条今人工智实验室最近在做的人工智能机器写稿与AI辅助创作工作成果。
李磊介绍四个方面的技术,第一方面是机器写作,如何自动来写作如何自动写新闻。第二方面辅助创作技术,帮助作者去写更好的文章。通过我们图像理解、机器翻译及以及图像美化的技术。第三方面利用AI技术帮助每一个用户去创造更好的视频。第四方面是头条号创作平台,我给每一个创作者提供了自动客服机器人自动解答他们在创作过程中遇到的问题。
(以下为演讲正文,小标题为编辑添加,有删减)
信息传播方式的沿革
人类有很多的需求,食物、水、信息,我们把信息定义为人类第三大重要需求。
在过去3000年历史上,每一次技术的发展都给信息的交流以及人类表达和交互的方式带来了很大变化,促进了交流的效率和质量,比如说最早没有技术情况下,信息只能口口相传,所以传播范围不广,后来有书籍、印刷术,可以把文字以纸面的形式以机器的方式保存下来,并且传播出去,以及到上个世纪有电子、通讯、无线电、网络的出现,让全世界各个角落的人都可以很方便接收到最新的信息。
过去10年信息的传播方式又发生了重大变化,最大的变化是移动互联网技术的革新,让每个人随时随地都可以接收到最新的消息,并且可以在随时随地去创作内容。
我们认为在未来的10年,新的技术尤其是人工智能技术更多的会促进创作和交流,会去连接这一端是内容的创造者,另外一端是内容的消费者。
这些创作者可以是职业、专业的媒体,也可以是自媒体,也可以是个人,每个人,拍一段视频可以到网络上很方便分享出去,通过我们的平台很方便的去分享给每一个用户。
内容的形式也可以非常多样,不管是图文的形式、小视频,每个人都可以拍身边的故事,甚至可以围绕一些音乐做一些表演,利用计算机视觉的技术去创作更漂亮、更有趣的内容。当然,像问答,让专家来回答问题,也会成为内容的一个形式。
我们认为未来用人工智能可以大大促进信息交流和内容创作。
内容推荐的核心机制
我们要把内容创作和交流的效果提高,这里面最核心的技术是内容推荐,我们如何给每个人推荐他最喜欢的内容。三个最核心的技术:
第一我们要去理解人,我们要用机器学习技术去理解这个人的兴趣爱好是什么,他的年龄、性别,他过去读了哪些文章,这些组合起来会刻画出他兴趣方面完整的画像。
第二方面我们要理解内容,内容不单单是图文,可以是视频,这些内容讲的主题是什么?关键词是什么?热度是什么?这些会决定他推荐质量的好坏。
第三方面是环境特征,在北京还是在上海还是在苏州,在不同的时刻也要因地制宜根据网络情况不同,去给他推荐不同的内容。
把这三方面结合其他,利用机器学习的算法,就可以给每一个用户推荐他真正喜欢的内容。把很大的用户群体服务好,把每个人真正喜欢的内容推荐好,这里面离不开强大的计算能力。
我们每天服务器都会收到100亿次的请求,所以我们有6万台以上的服务器每时每刻都在计算每一个用户的每一次点击,下一次点击会希望看到什么内容,我们用户画像有190T,这些帮助我们能够更好的理解每一个用户真正喜欢什么。
写作机器人的诞生
今天我会重点的介绍内容的创作,我们如何应用AI的技术帮助作者创作更好的内容,帮助每一个用户拍摄更好的视频。
我们发现有很多很多的文章他去创作的时候,每一篇文章都要花非常多的精力,阅读的时候只会被阅读几次,甚至不超过1000次,这样他的收益就很小。用机器去创作的话,代价很小,收益仍然是很观的。
我们去年8月开始做了一个机器人叫Xiaomingbot,一开始是为奥运会做文章撰写的,它会有三个方面的输入,第一方面是比来的实时比分,第二方面关于这个比赛实时图片数据,都会传到我们的后台服务器,第三方面有些比赛女足的热门比赛会有文字直播,把这三方面融合起来,最后生成对应的文章。
奥运会之后我们陆续写了一系列体育方面的文章,包括NBA、CBA等等,所有文章从协作开始到配图,到最后读者看到全部都是自动完成,中间不需要人工的参与,这个效率就大大提高了。
我们现在不仅仅能够写体育文章,我们还能写财经,通过看“小明看财经”,这个头条号,房产通过房产情报站,世界热点通过“小明看世界”,一系列的头条号自动放出。
写作机器人有什么好处呢?首先速度非常快,从我写作拿到素材推送出去读本可以看到,在2秒内就可以完成,我们利用自然语言理解技术去分析文字的语义和图像的语义,把他们匹配起来,后面我会具体谈到。
另外从质量上看,我们从去年8月份开始到现在一共写了2万多篇文章,读者真点进去文章这个比例是16%。我们对比了一下记者写的文章也是这个数字,也就是说我们机器人写的文章质量和人是接近的。
我们现在四个头条号也积累了非常多的粉丝,这项技术和北京大学合作,也得到了吴文俊奖二等奖。
在小明机器人里面具体利用到哪些技术呢?
第一方面有关于比赛的实时比分的数据
第二方面关于图片,我们通过计算机视觉去分析图片内容,把它和文字配合起来
第三方面是知识库关于一个比赛球队过去的历史,球员历史信息,我们把它补充到文章最后
第四方面,网上有一些直播文字抓取过来的信息,我通过机器学习的技术去挑选最重要的内容。
同时第二个考虑方面希望挑选出来的句子相互之间没有太重复,相互之间的相似度尽量小,同时涵盖信息量又尽量大,通过这个算法就可以达到这个目的,把直播文字当中的信息挑选出来。
我们还利用另外一个技术叫通过神经网络来做摘要,在“小明看世界”这个头条号里面,所有的文章全部都是对于头条上面14个频道热点的回顾,每天挑选10篇文章,每一篇文章通过摘要的方法把最核心的思想摘出来,最后合成一篇文章放出去。
这个在要怎么来做呢?我们通过层次化的LSTM模型对文章做建模,第一个维度是句子层面,通过循环神经网络对句子建模,学句子里面的语义信息,并且结合传统的模本特征,把它组合其他,最后组合成一个向量,用它来代表每一个句子。每天我们知道它有很多句子,把这些代表句子含义的向量连起来,就变成一个向量的串。
最后的问题就转化成我要挑选出几句比较重要的,代表文章中心思想的句子,把它作为最后的摘要,我们仍然可以通过LSTM来进行求解。在头条每天有200万篇的文章,通过我们摘要的服务去获取自动的摘要,其中一些热门的文章会通过小明看世界的这个头条号放出。
除了前面讲到通过模板生成,通过机器学习,通过摘要的方法来生成。我们最后想探索的是最自由语言的生成,我们通过做一个模型,这个模型可以学习头条上面所有创作者写的文章,去学到他们的写作风格,并且能够给定一个风格可以很好的模仿这个风格,把文章自由的写出来。
所以这里也需要用到一个技术,Free Style Language Generatino,同时我们在Generatino过程当中,我们希望去控制写作风格,当然有很多方面我们可以去控制。比如说我们可以给定到一个题目,可以做命题作文,第二可以制定模型写哪一类的文章,比如说是财经类的,体育类的不同品类的问题,有不同写作的风格。
这里是一个例子,左边是王晓天写的《你的样子》,右边是我们模仿好妹妹乐队,这个乐队的风格写了同样一个标题的词《你的样子》,读上去还是比较通的。
我们是怎么做到的?我们通过一个SAM模型,叫做Controlled Language Generation这个模型,有三方面:
第一方面,我们通过对标题建模,对语意属性建模,把所有这些都变成语义的向量,对标题建模用了SAM。
第二方面这些语义信息不同样重要,我们通过一个机制判断这里面哪个语义标签是重要的。
第三个方面是生成,生成我们通过循环神经网,但在这个循环神经网里面,我们加入了前两步学到的语义信息去控制风格。通过这个方法我们在数量级上做测试发现这个是越小越好,可以比传统的方法要更好。如果大家可以感兴趣可以看这篇文章。
辅助创作帮助内容生产者更轻松
辅助作业创作的工作,第一个,机器翻译,我们认为内容很大一部分不需要凭空的生成出来,可以借助翻译的技术把英文的内容翻译成中文,把中文内容翻译成英文,通过这样的方法去做创作。
以前通过统计的方法去做,2014年开始一个新的方法,把原句用序列的方法—循环神经网络来建模,去解码。在生成的过程中仍然用一个序列的模型比如说STM,中间还会加上一些生成的过程当中目标语言的一句话里面每一个词,针对原句每一个词其实有对应的不同权重,通过这个机制可以学到这个权重并且很好的对应起来。
我的一位同事他最近做了一个工作叫Modeling Psat Future,在翻译的过程当中我在生成目标语言的句子,比如说生成到第五个字的时候,未来还有哪些信息在原句当中没有翻译出来的,我们把这把它称为未来的信息,把没有翻译出来的信息直接建模。我们发现把这两部分信息,也就是已翻译的信息和将要翻译的信息,我们可以做一个更好的翻译。
我们还有技术是利用图文匹配技术给文章自动配图。
我们有一家图片社叫东方IC,上面有非常精美的图片,作者在写文章的时候,起一个标题或者写到文章当中一句话的时候,他就可以通过自然语言理解技术去分析,这句话的语意,自动地从图库里面挑选出比较匹配的图片,配到这个文章里面。
如果有些作者在写文章的时候,原文就有配图了怎么样?我们还有另外一项技术是帮作曲挑选文章的封面,通常文章里面有好几张图。有一些图做封面就没有那么好,有一些图作为封面就非常漂亮,我们通过自动选取的技术,可以去给文章以及给视频挑选更好的封面。
我们用户通常会上传很多的照片,我们也做了一个技术去帮助用户去美化图片,把原图变换成另外一种风格。
AI技术帮助用户制作更精彩的视频
后面我将谈一下计算机视觉的方面技术如何帮助作者创作更好的视频。
第一个技术,可以自动做视频的剪辑。比如说足球比赛最关键的片段通常只有3-5分钟,我们可以利用自动分析的技术去做视频的摘要,把里面最关键的信息摘出来组合成一个片断自动播放出去。
另外我们也通过单一图像分析的技术,仅凭视频里面的一桢就分析出这个视频里面最主要的人体部位,以及人体各部分在哪里。
当然,有了这个技术之后,我们就可以做人体的分割以及背景的变换。这是我的同事在办公室里面拍的视频,可以把人自动抠出来,背景可以换成上海、巴黎等等。这个产品已经应用到抖音小视频了。
这个过程当中不是身体论可的分割,最难在于头发的分割,因为头发非常的细,尤其是像女生,她的头发在边缘部分是一根一根的,你要识别和分割的话非常非常难。
我们专门针对头发做了一个优化,可以做头发的识别。识别出来我们可以对头发的颜色做一个替换,做一个发型的修改。这个技术也用到了抖音小视频上,成为了排名前三的特效。
我们最近也研发了一个技术,对人体姿态,人体的关键部位,比如说手肘、脚踝、膝盖等等这些部位的位置可以做实时的识别。
在抖音里面我们有很多的用户会根据音乐做一些表演,跳一些舞蹈,我们需要知道他在跳这些舞蹈的时候,身体的每一个部位在哪里。我们这项技术就可以实时的识别出来。
我们用户可以穿各种各样的衣服,有时候他穿的衣服和背景的颜色非常非常接近,躯干、肢体之间有一些遮挡,我们都需要在比较难的情况下识别出来。
就在昨天我们刚刚上线了新的功能叫尬舞机,它是类似于跳舞机,但是他比跳舞机不同的地方在于我们需要对人体的每一个部位做一些识别,给一些既定的动作之后,人做一些模仿,比如说右边的视频。这个是刚刚出的新的功能,新出的功能让抖音在IOS的排行榜上排到了第一。
我们还利用分割的技术去对天空做自动的识别,大家知道在北京天气通常是比较差的,雾霾天看蓝天怎么办?把雾霾天裁掉,把它替换成蓝天,我们也做了这项技术,可以做实时天空的计划。
头条号创作平台
最后我再介绍一下,我们为头条号作者专门做的客服工具。现在已经有100万头条号了,对应的作者非常多,以及发布完内容以后要研究内容情况之后,要研究文章传播情况,都会有各种各样的问题,我们研发了头条号自动客服机器人,可以自动回答他的问题。
当然这里面用到一个技术是自动问答的技术,其中有一个特别的技术利用知识库来问答,比如说左边围绕贝克汉姆小孩、出生地等等,我们可以组成一个知识图谱的形式。如果针对知识图谱我要问一个问题,贝克汉姆在哪儿出生的?我们的模型自动对文字做理解之后,把它转化成可以在知识库结构化查询的语句,可以自动找到答案。
具体的算法叫CFO,我们也是利用深度学习的技术对问题做分析,对里面涉及到关系去做排序,对涉及到实体去做向量化表示之后,综合起来可以学到最后的答案。他可以回答一系列的问题,比如说你要问他哈利波特在哪儿上的学?我们机器人就可以找到答案。
同时,我们对比行业其他团队做的工作,比如说2014年、2017年微软做的工作同样问答数据上面达到56%,脸书做的是62.9%,我们做的CFO的方法达到了71.7%差不多,我们离完美的情况还有点差距。
我们还有一种情况是闲聊,我们的作者,以及用户会在头条上面评论,我们在这个时候希望通过机器人能够跟作者以及跟用户产生一些互动。我们通过机器学习的方法可以自动的跟他聊天。
聊天的过程实际上我们通过序列的方法对用户输入的句子去做分析之后做语义向量,然后生成对应的答句。当然,这只是最简单的。实际上你通过生成的方法效果没有那么好。所以我们一般通过搜索的方法,搜索到一些候选,去对这些候选重排序。通过这样的方法让效果更好。
机器写作尚未解决的挑战
以上就是我介绍主要内容,最后我再介绍一下在机器写作方面我们的技术挑战是什么?我们现在已经可以做很多品类自动生成,以及帮助作者去拍更好的视频,编辑更好的视频。里面缺什么呢?深度的内容很难去自动生成的。
比如说我们头条上面有100万头条号他写作的文章每天生成非常多,我们能不能通过模型的方法去学习写作的技巧,真正让这个模型从文本里面学到一些模板,而不需要程序员去写这些模板。目前还是比较难的事情,尤其在跨领域。
第二方面我们不光是文本生成,其实机器写作在写的方面很需要有信息输入,而信息输入我们需要理解和分析数据,我们拿到一个数据,比如说一张报表。这里面有非常非常多的数字,我们要去写一篇新闻稿去描述这个报表里面重要内容,并不是所有数字都需要出现在新闻里面,我们要分析哪些数字是重要内容,这些数字之间有什么因果关系,这些依赖于计算机推理能力,未来我们在推理能力以及自然语言理解方面还有更多的挑战。
第三方面我们现在的写作还只是千篇一律的写作,我们还不能做到个性化。比如说我们看一场球赛,也许你是皇马的球迷,在皇马和巴萨比赛的时候,我希望看到的是对巴萨更多的描述,我希望看到的是对皇马的描述。我们还需要延续个性化写作的技术,而不光是个性化推荐的技术,能够更好地为每一个读者创作个性化的内容。
以上就是我分享的内容,如果各位朋友感兴趣的话,可以关注这几个头条号,AI小记者小明专门写体育方面的新闻,小明看世界是看世界热点,小明看财经是财经方面的资讯。谢谢。
今日头条人工智能实验室总监李磊发表完一场主题为“机器写稿与AI辅助创作”的精彩报告后,现场不少“粉丝”蜂拥而至,就人工智能及今日头条“写稿机器人”交流探讨。
李磊接受看苏州记者采访
在李磊博士看来,从最开始的机器学习到如今的机器深度学习,海量的信息存储、强大的运算能力、广泛的智能应用等特点,使得 AI技术越来越成熟。
人工智能目前已渗透到生活中的方方面面。以里约奥运会首次亮相的“小明写稿机器人”而言,它撰写一篇报道只需要 2 秒,不仅从速度上胜过普通记者采访撰写,从文章本身的润色程度也可媲美专业记者。
除AI技术外,现场观众最为关心的问题还是“机器人写稿会取代记者一职吗?”对此李磊的回答是:不会。
一般而言,机器人写稿流程分为数据采集、数据加工、自动写稿、编辑签发4个环节。毫无疑问,面对海量数据信息,人力的处理速度肯定赶不上机器人,但是就社交能力、协商能力、以及人情练达的艺术能力,机器人终究还是有所欠缺。所以,就写稿机器人要让记者失业的恐慌,没那么严重。