苏州大学张民教授两小时讲座精华摘录:自然语言处理方法与应用
2018 中国人工智能大会(CCAI 2018)于 7 月 28 日-29 日于深圳召开。「过去未去,未来已来」,李德毅院士在 CCAI 2018 开幕式上对人工智能的发展寄予极高的期待,认为未来人工智能必将给人类带来全新的启迪。
CAAI 副理事长、中国科学院院士谭铁牛在开幕式致辞中同时强调,「理性、务实」是未来人工智能的重要路线。他也希望中国人工智能大会能给与会观众以充实的视听盛宴与丰富的心得体会。
在 2018 中国人工智能大会(CCAI 2018)首日下午的专题论坛上,苏州大学特聘教授、国家杰出青年科学基金获得者张民做了题为《自然语言处理方法与应用》的大会讲座。在这场长达两个小时的讲座上,张民教授围绕 AI、自然语言及 NLP,还有相应的方法、应用及展望,向与会观众分享了自然语言处理的相应研究。雷锋网 AI 科技评论整理了张民教授的讲座概要及部分精华内容,以飨读者。
一、AI、自然语言和自然语言处理
从农业社会、工业社会到信息社会,从数据到信息、到知识到智能的演变,代表了人类社会的巨大进步,展现了人类对于不同概念的诠释与理解的演变:
数据可以理解为人类对主观/客观世界事物的数量、属性、位置及其相互关系的抽象表示;信息是具有时效性的、有一定含义的、有逻辑的、经过加工处理的、对决策有价值的数据流,也就是加工后有逻辑的数据。而信息的丰富性决定了我们需要将它抽取、凝练为知识;但拥有用知识去解决问题的能力,才真正叫做智能。从历史的长河来看,人工智能的产业成熟曲线及人类的认识体系,是在经历「人类要毁灭」的恐慌(发现人工智能的能力超出想象)与大呼「骗子」的顿悟(发现人工智能的局限性)的反复中循环提升的。在张民教授来看,这两种极端的观点都只能部分代表人工智能的观点和看法,不应以偏概全。
人工智能的内涵和外延:
能够讲清楚什么是人工智能很重要。在张民教授的理解中,按照李德毅院士的观点,人工智能的外延包括机器人与智能系统。而内涵包括如下四个层面:
人的进化与语言的关系
从感知、认知到进化,人为何能步入食物链的顶端?因为人类有语言,语言使人类区别于动物。语言的本质就是一套符号系统。从语言的种类来看,一个是动物语言,一个是人工语言,再者是自然语言。自然语言是人类最重要的工具,是人类进行沟通交流的各种表达符号。
那么自然语言处理的定义是什么?就是用计算机来处理人类的自然语言。
自然语言处理有三件重要的事:
1. 分析和理解;2. 生成和应用(互动过程);3. 动作(执行语言相对应的内容)。
为了更好地进行表示、推理和学习,自然语言处理涉及到了哪些方法?张民教授总结了如下内容:自然语言处理学科自身的算法和理论,规则方法,统计方法、机器学习方法及深度学习等多种方法。
机器能理解人类的自然语言吗?
从广义角度来说,真正的自然语言处理从 1950 年代的机器翻译研究开始。但语言存在高度歧义、高度结构化的特性。为何自然语言处理的难度如此大?张民教授认为包括如下因素:
与人工智能一样,张民教授也将自然语言处理划分为外延和内涵两个部分。外延指的是自然语言处理的应用(下一部分会重点说明);内涵则涵盖三大内容,包括以自然语言分析(分析语言表达的结构和含义)、自然语言生成(从内部表示生成语言表达)和多语言处理等。
分词
分词的任务定义为:输入一个句子,输出一个词语序列的过程。如将「严守一把手机关了。」输出为「严守一/把/手机/关/了。」
目前的两种主流方法包括基于离散特征的 CRF 和 BILSTM-CRF。
挑战包括交叉歧义、新词识别、领域移植、多源异构数据融合及多粒度分词等。
命名实体
现在的主流方法包括:
1. 规则系统
2. 基于机器学习的学习系统
目前的挑战包括新领域旧实体类别识别、新实体类别识别等,解决办法包括利用构词知识、领域知识,使用强化学习、跨领域学习、半监督学习、众包、远程监督等机器学习方法。
句法分析
句法分析的任务定义为:输入一个句子的词语序列,输出为句子结构表示的过程。依存句法分析输出的是依存句法树,下面以依存句法分析为例。
目前采用的方法包括:
现在的主流做法是在上述两者的基础上加入深度学习的方法。
语义分析
定义是将文本转换为可计算的知识表示。目前学术界语义表达方法包括:1)浅层语义分析;2)逻辑语义分析;3)抽象语义表示分析。
篇章分析
篇章的定义指的是一系列连续的语段或句子构成的语言整体单位,核心问题是篇章结构和篇章特征,其所基于的语言学基本理论包括中心理论、脉络理论、RST 等多种语言学基本理论。
篇章结构指的是篇章内部关系的不同结构化表达形式,主要包括逻辑语言结构、指代结构、话题结构、功能结构、事件结构等范畴。
包括连接性、连贯性、意图、可接受性、信息性、情景性和跨篇章等七个基本特征。
自然语言生成
张民教授总结了在基于规则、基于知识的检索及基于深度学习等三种自然语言生成方法的优缺点对比及适用场景。
它的一大优势在于具体领域的能做到精准回答;但相应地,在可移植性及可扩展性上则存在不足;适用的场景以个人助理为主,和任务驱动型的对话。
它的优点在于知识库易于扩充,答案没有语法错误;但对话连续性差,容易出现答非所问的情况;适用场景以问答系统、娱乐聊天为主。
基于数据驱动的方法能够省去显示语言理解等过程,但需要大量语料支持;适用场景以虚拟影像、智能聊天机器人为主的有丰富领域语料的场景。
三、自然语言处理的应用
自然语言处理应用包括自然语言处理本身的直接应用和自然语言处理加行业的应用。直接应用包括,问答、对话、机器翻译、自动文摘、机器写作、阅读理解、信息抽取、情感分析等;同时,自然语言处理在各个行业中都有越来越广泛的应用,包括教育、医疗、司法、金融、旅游、国防、公共安全、科技、广告、文化、出版各行各业。
1. 情感和情绪分析
在业界研究和应用,情感一般包括正面、负面和中性,而情绪一般表现为喜、怒、哀、乐、惊、恐、思等。情绪和情感都是人对客观事物所持的态度体验,只是情绪更倾向于个体基本需求欲望上的态度体验,而情感则更倾向于社会需求欲望上的态度体验。情感和情绪分析包括问题驱动和模型驱动两个方面,在工业界和学术界都已经有着广泛的应用和研究。
2. 问答
智能问答主要有三方面的要求:一是理解人类语言的内涵;二是推敲知识获取的意图;三是挖掘精确贴切的知识。
相应地,问答系统需要解决三个问题:
1. 问题分类、分析和理解(一阶逻辑、二阶逻辑)
2. 答案的匹配、检索
3. 答案生成
问答的四个难点及解决方法
1)多源异构大数据背景下开放域问答的瓶颈。在效率与覆盖率的权衡下,数据大小与知识占比的关系是每个研究者需要考虑的问题;而结构化数据与非结构化数据的混杂,导致知识挖掘与存储存在相应的难点;此外,数据时效性的变化也给新旧知识的应用带来了挑战。
以往是用 IR 或 RC 的方法,但目前流行采用对检索所得的多个段落排序,也就是在 IR 和 RC 中加入了排序的操作,进而进行面向多段落的提取/生成答案。
2)深度语义理解的问答技术。以 Watson 为代表的系统采用的是抽取与置信度计算的方法;目前则是阅读理解抽取/生成式方法推动了技术发展。
3)知识库与知识图谱。以往的知识库存在可靠性、包容性低,存在通用性不高的问题,目前研究者们更多考虑用当下热门问题自动生成来实现知识图谱的自动更新和扩展。
4)多模态场景下的问答。问题的对象往往潜藏于多媒体,且答案的判断需要参考其它媒体的数据资源。目前出现了以语言处理 RNN 与图像处理的 CNN 的有机结合方法,实现跨媒体的特征共享、独立和抗依赖。
对话
根据应用场景的不同,可分为开放域及封闭域对话系统。高准确率的上下文篇章建模、对话状态转移模型和领域知识建模是目前对话亟待解决的问题。
知识图谱
包括知识建模、知识图谱构建、知识融合、知识推理计算以及知识赋能等主要任务。知识图谱构建是目前学术界和产业界研究热点,包括实体及其属性识别、事件抽取、实体事件关系抽取、概念实例化和规则学习等。
机器翻译
机器翻译目前已经取得较大进展,张民教授展望了未来机器翻译可以从如下领域做发展:
知识建模和翻译引擎,从词序列到语义到知识,利用知识图谱和各类知识(语言学知识、领域知识、常识知识等)进一步延伸机器翻译的边界;
研究新的翻译模型,从广度(篇章)和深度(深度理解)进一步推进机器翻译的理解能力。此外,还需要适应产业化的需求和国家战略需求。
四、AI 时代的自然语言处理
张民教授告诉雷锋网 (公众号:雷锋网) AI 科技评论,目前的自然语言处理发展处于历史上最好的时机。早在 90 年代,他们团队就尝试做过自然语言处理的商业化应用,但因为技术的局限性,最终并没能将商业模型成功落地。「早起的鸟儿有虫吃,但起得太早,天没有亮就饿死了。」张民教授的切身体会让他意识到,技术的进步,加上产业的需求和落地,让自然语言处理到了今天才迎来了新的春天。
同样地,张民教授在讲座中也提到了自然语言处理于 AI 时代的三个基本问题,一个是表示;一个是搜索、推理,还有一个是学习。
以上这些也是张民教授团队研究工作的重点。
张民教授对 AI 科技评论表示,从数据、信息到知识和智能,未来的学科边界与知识智能结合会进一步融合,并在可解释性、小数据、知识赋能等亟待解决和探讨的问题上进一步延伸;与此同时,注重科学问题的凝练,定义学科研究规范和研究框架,重视产学研的结合与交融,这也是他寄予自然语言处理在 AI 时代这个「历史上发展的最好时期」的期待。
想了解更多关于语音语义方面的知识?