法狗狗人工智能技术总监庞雨秾:文本智能的演进 | 2018FMI人工智能与大数据高峰论坛(深圳站)
10月28日FMI-2018人工智能与大数据高峰论坛深圳场圆满落幕,法狗狗人工智能技术总监庞雨秾以文本智能的演进为主题进行了精彩的分享。
法狗狗人工智能技术总监 庞雨秾
以下是庞雨秾演讲内容,飞马网根据现场速记进行了不改变原意的编辑(有删减):
庞雨秾:非常高兴今天能跟大家分享关于法狗狗的工作。法狗狗主要是专注于泛法领域的科技,包括文书的分析、智能法律咨询问答机器人等。
有人问,到底怎么样才能实现司法的公平与公正?或者是到底怎么使用信息技术才能促进社会的公平公正?法狗狗从成立第一天开始一直在思考这个问题。
随着审判文件的公开,所有案件的保存形式都以自然语言文本的形式保存在网络上的,使得处理难度非常大。虽然案件公开、政务公开,但信息处理的效率并没有得到提升,如何利用这些信息帮助审判或者了解案件的真实情况成为一大难题。包括现在的工商信息、工商登记的信息,虽然公布在网上,但是如何快速对它进行检索,都是问题。这种难以处理的文档我们都叫非结构化的文档。
像数据库、excel,这些平时用的都是结构化文档。结构化文档中的每个维度,比如说这里面的年龄、姓名每个维度都特别清晰的定义出来。HTML、XML这些语言,也都是结构化的语言。除了这些语言,包括金融文本的数据,大部分的存储的形式,像财报或者视频、录像,很难直接用计算机对它进行处理。
搜索
怎么用AI的方法智能处理这些文档,最开始容易想到的方法是搜索,把这些文档放到搜索引擎里面,然后去做一个快速的检索。搜索引擎是非常快速、有用的方法,能够快速在非结构化文档里面找到你想要的信息。怎么做到搜索?首先待检索的文档要放到搜索引擎里面,通过建立索引,把文件放到数据库,下次再问这个问题就可以把这个问题同样做分词,并且找到相关的文档;最关键的是排序,通过对于关键词的排列和其他维度的信息来最后确定文档的评分,最后进行排序。
搜索引擎的问题也很多,搜索引擎的形式是完全忠实于用户的搜索,难以解决各种歧义的问题。还有最麻烦的一点是口语化表达,比如炒鸡好吃,炒鸡这个词是超级的意思,但是它是口语化的表达。所以到底什么算法或者什么形式可以解决俚语表达呢?再比如我们做法律咨询的时候经常遇到农民工或者受教育水平不高的人,他们脑中对于某个概念缺乏最基本的认识的时候,他们很难很容易地表达他想要的东西,只能不断地描述周边的信息来表达意图。这些都是使用传统搜索引擎技术无法解决的问题。
机器阅读理解模型
我们怎么样克服或者解决刚才的两个问题?这里面比较前沿或者比较通用的方法叫做“机器阅读理解”。顾名思义,让机器去做阅读理解的题。它的形式是你有一段文本还有一个问题,你要从这个文本里面找到想要的答案。阅读理解的概念的提出是由斯坦福的数据集建立以后流行起来的,这个数据集里的数据形式和右边的数据形式是一样的,包含了10万Q&A、Text、question、Answer。现在很多公司针对数据集构建很多模型来攻克问题。在一定程度上用机器阅读的模型拓展机器对于查询或者是问题的理解能力,同时它具有一定的推理能力,意味着可能没有说得很清楚,但是一样能从里面找到相关的答案。这就是机器阅读理解模型。
机器阅读理解模型的技术可以做什么事?举两个项目例子,一个是我们2017年做的法律文献阅读器,法律文献非常生涩难懂,但可以用刚才的模型去训练法律方面的文献。比如微信的聊天记录算不算加班证据?这可能是劳动方面的问题,它会告诉你,录音、聊天记录等都可以作为加班的证据,所以下次你们加班的时候,聊天记录千万不要删。这是根据阅读理解模型做的事情。二是Google books的项目,你可以在谷歌books里询问关于某本书的问题,比如白雪公主的妈妈是谁?这种问题就可以快速从相关的书籍里面找到相关的证据,还有重点能回答他的段落。这些都是机器阅读模型能完成的事情。
机器阅读模型的坏处
坏处是比较慢。
现在你很难用自己的方法做一个查询。同时每个模型都需要做非常巨大的预运算的运算量,比如谷歌的BERT模型花了64个TPU、花了4天时间。比如有开矿厂,挖矿的朋友,他们有大量的GPU,但他去跑这个模型至少要跑2个月。所以你要制作某个领域或者解决大批量文本问题的时候,它就需要很大预运算量的时间,同时也无法完全地使用索引技术来对检索进行加速。
但是它还是有很多可以优化的方法,包括做预分类等。
信息抽取
刚才提到的两种方法,一个是搜索、一个是机器阅读理解。这两种方法的作用都是将算法直接作用于非结构化的文本上,但是有的人会问为什么非结构化文本这么难,转化为结构化文本问题不就解决了吗?信息抽取就做这个事情,主要的任务就是将非结构化的数据转化为结构化的数据,相当于对结构化的每个维度有针对性做模型或者是解析器,这个精确度的要求会比较高一些。一旦文档被结构化成图谱或者表格之后,就可以对它做快速的分析。
文本生成对话
把文档进行搜索、检索,又能够把它结构化,那么有没有可能把这个文档放到一个机器里,让机器去分析,能够让用更自然的方式进行交互呢?
这种用文本直接生成对话,也就是我们常见的对话机器人。
这个对话机器人把之前的几种数据,包括结构化的数据还有书籍的数据,预测的东西全都放到对话系统里面,通过对话的中控管理中心来管理这一系列的对话的上下文。这样子就可以通过很自然的语言对话方式,去了解关于法律方面的东西。为什么选择文本对话的方式呢?其实法律这个东西更多是让每个人使用,假如你使用很难懂或者很高级的方法,普通人很难接触到这个东西。包括我们的系统也会对接到语音或者是电话这种平台,他们都直接打个电话过去就能够获得一些法律上面的帮助。虽然看起来大家都接触过这种客服机器人,但是对普通老百姓,真正有一个东西理解他们的话,能告诉他们怎么做,能够怎么起诉或者怎么写这种起诉书的东西,他们其实还是非常喜欢的。
推动文本智能的工具
但我们应该如何使用从非结构化到结构化的转换?
最简单的方法是通过正则表达式
正则表达式是处理字符级的问题,包括你要提取数字或者是做一些简单模式的匹配,这都是用正则表达式。更复杂的任务却很难用正则表达式实现。
现在有一种语义表达式
语义是把字符级操作符升级到语义级。语义级的表达式的结合更多是通过机器学习或者机器学习和规则共同结合起来才能去构建。包括主语,要提取出这个东西的主语,我们就可以在这里面用句话分析,我们可以快速的提取出来主语来。
第三种机器学习
机器学习的基本任务,包括文本分类,要把这个东西分类为新闻还是金融方面的新闻都可以通过这种方法做到。还有其他机器学习的算法,他们都能够做这个事情。
大数据背景下的文本处理工具
文本分类的算子可能是一个由简单表达式的东西,运算量非常小,不需要扩展它。但如果是类似于CRF,它是用于提取句子里面实体的算法,这种算法非常耗时,在计算的时候可能要对它进行横向的扩张。我们提出的SEE(Scalable Expression Engineering)架构就是为了解决算子间运算量的不平衡产生的无法快速扩展的问题。最后我们将文本抽取的任务中的每一个模块都会封装成可被重复调用的模组,也可以通过图形化拖拽和连线的形式进行连接,这样将每个文本处理的算法都可以快速分解,并且组合成一个更灵活的文本处理算法。
文本理解的演进
很多人说图像算法非常复杂,但其实对于某些任务来说,处理文本的任务会更复杂一些,为什么呢?
因为图像的很多任务都是信息完全的任务,比如从图片里面找出一张人脸,所有的信息都在图中。但文本的任务,很多时候是作为信息不完全问题,很容易碰到这种问题。例如“法狗狗是专注于泛法律领域的文本分析技术公司”,在计算机里面表示就是A is B,但我问“法狗狗的成立时间是什么时候?”这个问题虽然很简单,但计算机却很难回答。因为这时候我们会发现它并不是是信息完备的问题,我们需要解决自然语言处理的问题,就需要关注知识、数据。我们就会问,这个数据或者知识到底怎么样引入到系统里,我们到底怎么样存储这些知识。
知识图谱
知识图谱是一个把每个知识点当做节点,而节点与节点之间的连线被称为实体之间的关系的一个结构。知识图谱的好处在于把问题实际的落实到了每个知识图谱的点上,你可以通过点、线之间的关系来做进一步的推理。
知识图谱是Ontology中的一种,是本体体系里面很小的分支。本体体系更多描述的是你如何把一个知识映射到可以被推理、可以被检索的空间里面去,其中包括了知识图谱。比如说你建立了一个音乐领域的知识图谱,就可以去查询关于音乐的方方面面。
但除了这种可以用图状结构很容易表示的知识结构之外,其他结构比如一维的、或者更高维的知识结构可能就不容易使用知识图谱来进行表示。 例如空间方面的东西很难用知识图谱表达, 又比如在一个车用场景里面,会涉及到很多的空间信息(例如,“方向盘的左边是什么按钮”),这些很难在缺乏空间信息的时候进行回答。所以很多做定制化的本体体系的厂商,他们会在某个场景下构建一个可以推理的知识结构模型。有的人说通用的人工智能到底能不能出现或者通用的自然语言处理的存储知识、存储模型存不存在?目前来说肯定很难存在的。你需要针对每个问题、每个领域单独的去构建它的垂直的知识体系。我们企业现在主要的工作也是在构建法律领域的本体体系,你可以通过我们的本体体系问更模糊的问题,可能你不太懂的东西也可以在法律领域做出一定的推导。
所以我们做的工作就是要把法律服务的成本降低。公平与正义,很多人觉得是静态的过程,其实它更多是动态博弈的过程。这就像一场搏斗,我手上有一把刀,你没有,这就是不公平的决定。但法律给了每个人一把一样的刀,拿着同样的刀来决斗,这才能叫做公平。我相信,通过算法的不断提升,本体建模的不断完善,知识数据的不断积累。我们必然能打造一个智能平台,将知识流动效率提高,同时访问知识门槛降低。你不需要成为一个律师,不需要背诵大量的法律概念,就能通过与计算机对话获得法律咨询、分析、评估。同时律师、法院也可以通过信息检索,大大地提高工作效率。
所以最后到底法狗狗能为大家做什么?我用一句话总结:社会给了我们法律的武器,但是我们需要用信息技术来降低它的使用门槛,让每个人都能寻找光明。谢谢!
【飞马会】
▼
飞马会