对话陈运文:达观数据为何只取“文本挖掘”一瓢饮
“算法模型未来能够洞悉人性,能够了解每个人的内心深处,把你真正所需要的内容传输给你。”陈运文带领着达观数据在文本挖掘的道路上悟之渐远,行之渐深。
作者|欣彤Iris
编辑|小鱼、甲小姐
网址|www.xtecher.com
微信公众号ID|Xtecher
一场真金火炼的演习战
一场惊心动魄的比赛,成为了陈运文创业之前的一场演习战。
2012年,仍在盛大文学负责大数据研究的陈运文,抱着向国际顶尖团队靠近的决心,带领其组建的上海团队赶赴国际数据挖掘竞赛KDD Cup。这一场竞赛,不仅令陈运文及其队友领教了国际上顶尖的算法模型,也切身体会了一把团队战的酣畅淋漓。
如今陈运文回忆起那场夜以继日的比赛仍颇有感慨。
竞赛持续了两个半月,题目难度高,陈运文团队最初排名仅居于参赛队伍中的第几百名,起点低、压力大,战况毫不乐观。
“这是一个全球性的比赛,当你的算法改进之后,会看到算法改进带来的效果提升,排名也随之靠前。”换句话说,公开排名明目张胆地宣告着各家参赛队伍的算法水平,算法好一些,排名就靠前一些。
不甘落后,陈运文带着团队呕心沥血地改进,用他的话说,当时他们与时间赛跑的程度,可形容为“连睡觉的时候脑子里都装满了算法”。
排名一点一点靠前。
陈运文团队硬是靠着专业能力和意志力撑过了那场为时两个半月艰苦卓绝的马拉松——经过无数个争分夺秒研究算法的日日夜夜,他们最终获得了亚军。
“当比赛截止的那一刻,团队成员看见排行榜上出现了我们团队的名字时,大家不禁相拥而泣。”
对陈运文而言,这场比赛最大的意义并非战绩,他告诉Xtecher,整个比赛过程令他和团队成员形成了真金火炼的战友般的友谊。尽管比赛的激情渐渐消退,但身为队长的陈运文却萌发了一个想法——若几年后自己出来创业,必定要把这些志同道合的兄弟们重新聚集到一起。
只取“文本挖掘”一瓢饮
“尚处于极其原始的状态。”
陈运文用“极其原始”四个字来形容中国企业、尤其是传统企业的文本信息处理能力,“很多大型企业,他们对文字资料的处理还停留在人工整理阶段,并没有意识到很多工作是可以完全自动化的。”
一条信息是否能够让用户感兴趣,主要取决于这条信息的内容是否是用户关注的内容。将适合的信息推送给适合的人,对于用户来说,提升了信息的获取效率;对于企业来说,可以更好地获取商业利益。
在陈运文眼中,通过算法模型实现文本挖掘的自动化,将大大提高企业的管理水平。这个朴素的动机,也构成了陈运文投入创业的动力。“年轻的时候觉得创业梦很遥远,可能是自己还没准备好。但到了三十几岁时,觉得自己差不多准备好了。”
“仰望星空的同时需要脚踏实地,”陈运文向Xtecher表示,“一定要有一支志同道合的团队,一起并肩作战。”
前文所述,曾经的比赛磨练了一份真金火炼的战友之谊,这份曾经在国际竞赛上共同战斗过的友谊从2012年延续到了2015年底,继而有了一个新的名字——达而观信息科技(上海)有限公司(以下简称达观数据)。
数据挖掘领域深似海,达观数据为何只取“文本挖掘”一瓢饮?
“各种类型的数据、应用很多,文本挖掘是我们最擅长的强项,我们希望努力达到国内文本挖掘的巅峰。”曾任职于盛大文学、腾讯文学等平台的陈运文,每天打交道的对象就是文字数据。专注地把文本挖掘做到极致,追求纯粹和顶尖,或许是陈运文创业落子的难能可贵之处。
客户的单子慢慢滚大
方向已定,接下来就是进一步招兵买马。
在挑选人才这方面,陈运文很看重一点:那个人对算法到底有多热爱?陈运文试图通过一些高标准的竞赛吸引人才,如今年5月启动举办的“达观杯”个性化推荐算法挑战赛,正是为了吸引更多热爱算法的精英,为团队注入新鲜血液。
如今,技术氛围浓厚的达观,十分注重探讨及引入国外先进算法技术。“平时在一起聊聊最新的算法,谈谈美国那些公司、大学发表了哪些新的论文等,”陈运文享受这样的氛围,“像我们这种专注技术的公司,技术氛围是很重要的。”
笃实的技术氛围,支撑着达观数据扎扎实实地提升着一个又一个客户的业绩。
达观的业务涵盖为企业提供专业的文本语义理解、个性化推荐、垂直搜索、用户画像、数据采集和深度挖掘等,以帮助其实现基于大数据的精准营销,降低成本提高效益。有时,为了更好地满足客户需求,达观数据也以自身的垂直技术打包合作伙伴的技术服务,携手服务。
达观数据目前服务的领域涉及媒体、视频、电商、银行以及金融科技等。据统计,系统上线后,达观数据客户的经营业绩普遍都能提升30%;通过个性化推荐引擎的服务,达观数据的客户平台人均播放次数等关键指标提升了近4倍;不仅如此,达观在文本挖掘、搜索引擎、个性化推荐系统方面已拥有20余项国家发明专利。
客户名单在逐渐丰实累积:不仅有华为、中兴等大型企业,还有梨视频、酷六、界面新闻、趣头条、暴走漫画、Papi酱等。
客户的单子自己慢慢滚大。比如,在华为,达观数据为之量身定做的第一个系统便好评如潮,由此展开向华为六个部门提供技术服务;再比如,趣头条买了其服务,并做了长期的AB测试,将达观的算法和他们原有系统进行了对比,发现达观的算法更优质,后来便把所有流量都切换到了达观数据这边,今年又追加了订单。
需要文本挖掘服务的企业有很多,从哪里下手?
达观数据在获客初期会着重选择“中型发展企业”——这些客户往往具有类似的情况:主营业务已较稳定,但在寻求发展的同时也面临相对生存压力,因此对产品迭代升级的要求非常快,这时便最需要达观为其提供服务。
值得注意的是,服务中型发展企业,对达观数据产品的效果引擎提出了不断的迭代要求。陈运文强调:“引擎有点像发动机,在使用过程中需要不断升级调整,效果才更好。达观会根据各种反馈数据,自动调整算法,确保它具备最优效果。”
此外的一个问题是:文字语义理解上正在不断衍生出不同领域的细分产品,如何保证其良好的通用性?
针对每个垂直行业,达观数据都定制了相应的解决方案,让服务更加“对症下药”。与此同时,为了兼顾垂直性与通用性,他们做了大量的系统设计。比如,把系统尽可能地“模块化”,这个过程可比喻为“搭建乐高”,每个小模块都像一颗乐高积木,每个客户想要的东西虽有所不同,但基础模块都类似——用模块拼装以满足客户的特定需求,可减少大量重复工作。
一个有价值的信息。达观数据,按照国际标准整理和撰写了技术文档资料,对操作流程进行了规范化,今年5月23日成功通过了审查并获得了ISO证书。认证范围覆盖:计算机软件开发与系统集成;大数据挖掘分析技术服务。
这对一家公司而言,意味着它得到了业界标准的认可,有更坚硬实力去承担大型政府、金融企业的大数据挖掘系统开发。
事实上达观已经展开与政府机构广泛的战略合作。达观数据是发源于上海的大数据公司,也是浦东软件园加速器成员之一,由于上软业务资源丰富,在合作后达观数据充分发挥其优势,帮助政府和企业完成大数据挖掘的业务落地。达观也曾与上海计算机软件技术开发中心开展大数据战略合作。
与强者强强联手。达观数据的另一位战略合作伙伴——神策数据,于今年5月下旬双方签署了战略合作协议。“神策数据打牢地基、达观数据建好高楼”,陈运文告诉Xtecher,“神策帮助企业完成数据采集、整理、分类等工作,建好大数据基础设施,达观在此基础上完成数据挖掘和应用工作。”
唤醒对大数据的认知
好公司永远不缺投资人。达观数据在成立一年(2016年)之际,便获得了真格基金领投,众引传媒集团、盛大集团、掌门科技等国内多家知名投资机构跟投千万级天使投资。今年4月中旬,达观数据宣布完成了5000万元A轮融资,本轮融资由软银赛富领投,方广资本跟投。
至于这笔来之不易的5000万元A轮融资,陈运文对它的投入计划早已胸有成竹:第一,人才建设,吸引优秀算法人才等;第二,加大销售和市场拓展的力度;最后,为长远布局,做基础性算法的技术投入。
资金到位后,企业随之遇到了发展的瓶颈。陈运文坦言,市场拓展是目前企业快速“奔跑”的绊脚石。
“我们特别垂直,如何避免酒香也怕巷子深的问题?大部分传统企业对大数据的理解较为浅薄,传统企业不一定能意识到文字自动化处理能更好地进行搜索、推荐等,以及会更有利于他们提升经营业绩。所以,我们还要做很多市场培育工作。”
还有一个不争的事实。现如今,传统企业领导的观念依然停留在“看数据报表”的范畴,无法分析数据背后涨与跌的原因,也难以将数据的价值真正运用到经营中去。“如何唤醒大家对大数据的认识,将依赖领导经验来决策的机制转换为依靠数据分析决策的机制”,成为陈运文常常思考的问题。
用事实说话。陈运文开始用案例向客户展示其数据产品的应用价值。“我们曾通过对比测试来印证大数据的重要性。结果证实,大数据的用户点击率是人工推荐的3倍。”
市场在慢慢醒来。
如今,陈运文表示达观数据在销售方面已逐步摸索到了方向,也得到了市场积极的反馈,“现在很多客户其实都不是靠我们的销售人员去联系,反而是他们了解到我们是专业做文本信息处理的,进而希望我们提供技术支持。我希望未来我们的市场拓展工作人员能够走出去,主动地把我们的各项产品介绍给更多的企业并投入使用当中。”
“达观”的目标市场,不仅仅局限在国内。陈运文说,他也希望未来达观数据的技术能在国外市场占据一席之地。他告诉Xtecher:“我们在这个领域有某些天然的优势,因为文字本身跨语言的差别很大,中文表达更具多样性,语法更灵活,做中文的文本挖掘对我们的好处就是可以把很多美国的竞争者排除在外。”
具有挑战精神的陈运文,十分期待未来与国际顶尖的竞争对手较量的那一天到来。
锱铢必较的匠人精神
“算法模型应该洞悉人性,了解每个人的内心深处,把你真正所需要的内容传输给你。比如,我们今天在搜索引擎里面搜一个词的时候,我们背后想表达的含义远远比那几个词更加丰富。”
陈运文对未来算法模型的理解是:“比如我们要给企业里面的职员做个性化推荐时,要根据他的知识水平和体系以及他想了解的内容,从企业资料库当中精准地找到想要的内容,帮助企业大大提高经营业绩——而这些过程需要我们对每个用户、甚至每个企业的经营业态有深入了解,对文字有更深入的挖掘,才能更好地实现。”
谈及达观数据的未来,陈运文心态平和,但他强调要有一种精神:“创业这件事情我觉得目标很宏伟,但是过程还是要扎扎实实的,因为技术人员写错了一个代码,就足以导致最终算法出现问题。”
在他看来,每行代码的背后,隐藏着每位成员锱铢必较的“匠人精神”,只有他们把“匠人精神”倾注在毕生热爱的事业上,才能令之焕发出极致的光芒。
在他眼中,此刻的创业和马拉松式的国际竞赛有着相似之处——残酷的创业竞争格局不亚于比赛冠军的争夺,在每个细分行业里面,可能只有前几家公司生存下来。大多数人在经历过程中会萌发放弃念头,但一旦放弃,意味着功亏一篑。
在采访即将结束之前,陈运文胸有成竹地告诉Xtecher,“我们每天不断地提升自己,不断改善算法模型,达观数据的系统与去年相比得到很大的提升。日积月累,水滴石穿,相信未来我们肯定会更强大。”