达观数据:化繁为简 做最专业的文本智能处理专家
在日常办公中,普通的白领每天有超过三分之一的时间用在处理对文字的读和写上。如何将文字工作由繁化简?如何在庞大的文字流中用更低成本的人力去完成更高效的工作?达观数据——一家致力于大数据挖掘,持续深耕文本智能处理的人工智能公司或许可以给你答案。
走进达观数据公司,可以看到墙上高高挂着几幅人类文字史上重大事件的照片,一低头,甲骨文龟甲、印有古字的木简卷轴、古朴别致的象形文字摆件、密码机……无一不在展现着至妙极精的文字之美。在理工男云集的浦东软件园,如此有“情怀”的公司布置恐怖多见,这一切与一个人密不可分,他就是达观数据的创始人兼CEO陈运文。
凯撒密码
从百度核心技术工程师到盛大文学首席数据官再到腾zai讯文学高级总监,陈运文自从复旦博士毕业后,就是始终如一地从事着和文本数据相关的工作。对他来说,这是一件很有意义的事情,“我觉得让计算机能够像人一样的断文解字,进行文字资料处理,也是一件蛮好玩的事情。”陈运文笑着说道。文字自动化处理是一件非常有价值的事情,但是他看到在中国大量的企业里面,直到今天为止都没有很好。2015年的时候,陈运文毅然放弃了大公司的优厚待遇,坚定的选择了创业这条路,和希望能够用尖端的技术,能使企业的工作效率能够大幅度提高,把繁琐的一些文字相关的工作实现自动化。
专注将一件事做到极致
在人工智能三大应用领域中,图像识别和语音识别均属于“感知技术”,而属于“认知技术”的文本理解才是AI的最关键点所在。能够理解文本意思的NLP是需要理解复杂语义、并进行高精准度处理的认知技术,曾被比尔盖茨称为“人工智能皇冠上的明珠”。
正是思考和获得知识的能力成就了今天的人类,这种能力需要通过语言来找到思考的对象和方法,并外化为我们看、听、说和行动的能力。让机器读懂人的意思,这是人工智能得以应用最关键的一环,也是最难的一点。达观数据把这项技术很好地应用到了文字处理上去,“做文字处理很多年,我们知道怎样把好的技术和产业需求结合在一起,变成可以落地的应用系统。”陈运文说道。
去年,达观数据宣布成功完成1.6亿元B轮融资,由宽带旗下基金晨山资本领投,元禾重元、联想之星、钟鼎资本及老股东等跟投,华兴资本担任本轮融资的独家财务顾问。目前,达观数据累计融资额超2亿元,刷新了中国自然语言理解领域的融资记录,成为语义识别领域融资额最高的企业之一。作为一个2015年成立的初创企业,达观数据为何受多家投资机构的青睐?
陈运文的答案是——只因达观专注地把文本挖掘这一件事做到极致,也使达观形成了自己的核心竞争力。
陈运文介绍道,达观数据的核心竞争力主要体现在三个方面。其一,达观的书面文字的自动化处理,其技术是中国最强的。文字处理看上去不难,但深入进去做其实特别难,因为文字的意思是浓缩的,让计算机去理解符号背后表达的含义,需要做非常多的技术攻关。其二,达观把文字阅读理解的技术和产业应用结合到一起去,产品化程度非常高。一个底层的技术要发展到客户的真正想要用的一个系统,中间的跨越很大,各个行业所适用的风格也各有千秋。但是达观让计算机总结出一个每个行业的语言模型,不断打磨每个行业里的模型,使其能够适配这个行业的这个应用,推动它在这个行业的落地。其三,则是积极进行新技术产学研发,联合复旦大学、中国计算机学会等开展合作。
“解放”双手 大批白领面临失业?
和人相比,机器有两大优势:一是机器阅读文字的速度比人要快得多,测算过现在一台计算机的阅读速度是人的500倍;二是有很多的工作是特别重复性的,这些工作让人来做非常的辛苦,费时费力。那么可以让计算机去承担一些繁琐、机械的文字处理,让人去做那些更有创造性的工作。
NLP (Natural Language Processing) ,自然语言处理可以让计算机模拟白领的大脑运转,实现阅读和理解面对大量的文档资料。
我们会不会被人工智能所毁灭或者取代?随着人工智能时代的到来,这是无数人们心中的问题,同时也是霍金留下来的预言之一。
用达观数据的文档智能化处理器去代替人完成这些审阅处理工作,那么未来这些白领是否会面临失业的风险?陈运文给出了自己的答案。
“我觉得我们其实只是在这些重复性的、非常枯燥的这些作业流程上为白领减轻压力并不是完全去替代人。”陈运文指出,人类特别擅长做的,应该是创造和联想。随着科学技术的不断进步,会有新的技术能够让整个企业甚至整个产业效率提升,这样人才能投身到更具创造性的工作中去,为社会文明的进步做出更大的贡献。
做传统行业赋能者 提供个性化定制方案
“很多大型企业,他们对文字资料的处理还停留在人工整理阶段,并没有意识到很多工作是可以完全自动化的。”陈运文表示。在此情景下,达观数据这家公司致力于为客户提供解决实际问题的系统,提升工作效率。
目前,达观数据的文档处理系统已经发展了大量客户,其中涵盖金融、政企、传媒、军工等多个领域。其中也不乏很多世界五百强的大型企业,如华为、海尔等。虽然行业不同、定制化需求各不相同,都有一个共同点——都会接触并需处理大量文档资料,这也需要耗损很大的人力。
同时,达观数据也致力于提供定制化方案。根据不同用户的喜好,挖掘数据形成用户画像,为客户提供“千人千面”的定制内容,帮助各行业客户有效提升点击率和转化率,
陈运文带队在国际算法竞赛KDD CUP中荣获世界冠军
据统计,系统上线后,达观数据客户的经营业绩普遍都能提升30%;通过个性化推荐引擎的服务,达观数据的客户平台人均播放次数等关键指标提升了近4倍。不仅如此,达观在文本挖掘、搜索引擎、个性化推荐系统方面已拥有20余项国家发明专利。
立足上海 用人工智能推动产业转型发展
上海作为高度城市化的创新之城,也应是人工智能应用最佳的切入城市。陈运文称赞了上海的人工智能产业环境,他多次提到了“务实”这两个字。“只有真正精益求精,才能真正把产业做大做强。”
正是秉持着这种精益求精的态度和扎实稳健的作风,达观数据在近年来举办的各类算法竞赛中也屡获殊荣。值得一提的是,去年,达观数据在最高人民法院的“法研杯”司法文书自动处理挑战赛中从1000多名参赛选手中脱颖而出,荣获刑期预测单项季军的好成绩。让计算机去阅读这些案件的案情描述,阅读完了以后,计算机就像一个法官的助理一样,可以告诉你,案件匹配哪些条款,案件历史上面类似的案件是怎么样的一个判罚结果。
去年,达观数据与上海检察院等司法单位的合作也已开始。陈运文笑侃道:“我有个律师朋友,每次开庭都是带着24寸拉杆箱去的,以后相信就不用了。”他相信,靠人力去归档整理的浩荡卷宗的时代很快就会被替代。
除此之外,在上海市全力推行的“一网通办”中,在处理大量行政审批文本、缩短行政审批时间方面,达观数据已经展开与政府机构广泛的战略合作,贡献了自己的科技力量。达观陈运文表示,在未来3-5年内,达观数据的目标是让计算机的阅读能力超过人类水平。
前不久的5月15日,2018年度上海市科学技术奖励大会在上海展览中心友谊会堂召开,隆重表彰为上海科技创新事业和经济社会发展作出突出贡献的科技工作者。陈运文作为“上海市青年科技杰出贡献奖”的获得者昂首踏上了领奖台。未来,陈运文将带领着他的达观团队立足在上海这片创新热土上,坚定的在文本智能处理这条路上走到头,成为国内最专业的“文本智能处理专家”。