大数据和人工智能浪潮下的新闻出版业 ——专访百分点集团副总裁兼EBG事业部总裁高体伟

大数据和人工智能浪潮下的新闻出版业 ——专访百分点集团副总裁兼EBG事业部总裁高体伟

百分点集团副总裁兼EBG事业部总裁 高体伟:华南理工大学,软件工程硕士。拥有近20年丰富的政府、金融、电信、制造、零售等行业解决方案销售经验和团队管理经验。曾任惠普软件集团大客户部总经理,任职期间使惠普软件业务连续三年保持两位数的增长;曾任Golferdata Co-Founder、方正控股区域售前经理。现负责百分点企业业务事业部管理工作。

2016年10月,国家新闻出版广电总局正式发布了《关于发布首批新闻出版业科技与标准重点实验室的通知》,这是首批新闻出版业科技与标准重点实验室申报评审工作。百分点集团与南方报业传媒集团联合建设的“媒体大数据应用实验室”,成功入选专业领域实验室,是数据管理与运营方向三个实验室之一。实验室主要研究新闻行业的数据汇聚与治理、交换与共享、分析与应用、存储与安全等相关大数据收集、清洗治理、交换标准以及共享机制、数据分析挖掘与应用的个性化开发等新技术。

近日,出版参考杂志社就“媒体大数据应用实验室”的研究方向与人工智能在出版领域的若干应用,采访了百分点集团副总裁兼EBG事业部总裁高体伟。

应用实验室:聚焦大数据管理

出版参考:百分点与南方报业联合建设媒体大数据应用实验室成功入选了首批新闻出版业科技与标准重点实验室,请介绍一下该实验室的具体研究内容?

高体伟:媒体大数据应用实验室是本次入选的数据管理与运营方向三个实验室之一。实验室主要研究新闻行业的数据汇聚与治理、交换与共享、分析与应用、存储与安全等相关大数据收集、清洗治理、交换标准以及共享机制、数据分析挖掘与应用的个性化开发等新技术。具体有以下四个方面:

1.数据新闻可视化表达。将新闻背后的数据进行分析与过滤,从小数据中总结规律、建设各种类型的分析模型,最终把数据和新闻内容本身作为相辅的整体进行传播,从量化的角度准确地报道新闻事实, 反映新闻事物的发展状况,并通过可视化的手段进行展现。

2.媒体智能决策分析。通过对新闻热点、热点事件以及传播路径等的分析,利用文本智能分析技术中的相似判定技术实现新闻报道的转载判定和自动分类等技术,建立新闻、论坛、博客、微博、视频、全局等多维舆论场发现模型,帮助企业做智能决策分析,可以分析热点新闻的来源、传播路径、热度时间以及发展趋势。同时,基于全媒体资源管理平台,可以利用新闻稿件间的关联关系,完成数据新闻的智能决策分析。

3.媒体传播效果评估分析。从关注报纸发行量转变为关注真实受众,客观评价媒体的全网传播效果,掌握媒体内容的全网转载情况和传播路径,掌握媒体原创内容疑似侵权盗用情况。构建基于报刊、网站、客户端App、官微等渠道的“融媒体”智能传播效果评价体系,定期形成综合的量化影响力报告。

4.用户画像数据建模。实时收集网站以及移动App的用户阅读行为数据,并通过分布式计算、机器学习等多种手段,建设用户阅读行为分析系统,进行多种维度的统计和分析,从中发现用户使用的特点和规律,进而实现用户画像数据建模。

百分点:转型面向服务市场

出版参考:作为业内大数据和人工智能的先行者,百分点为实验室的建设提供了有力的技术支持,请介绍一下百分点在转型升级、服务市场方面的探索成果。

高体伟:百分点从2015年开始进行转型面向企业级服务市场,先后推出了一批企业级大数据产品,到今天经过两年多的市场检验和经验积累,百分点的产品也迎来了重大更新。

系统更新,持续帮助企业实现数据价值。首先,百分点大数据产品系列,我们重磅推出了大数据操作系统BD-OS2.0。过去两年中,大数据操作系统BD-OS加入了分布式分析型数据库、人力资源管理平台等核心技术组件,真正将人工智能和商业智能融合在了一个基础平台之上,能够为开发者提供完整的数据集,提升企业使用数据价值的效率。

其次,是大数据建模工厂BD-MW经过两年多的业务实战,我们的数据科学家在公共大治理、智能制造、融媒、金融等领域形成了富有洞见的模型库,这个模型库里面包含数百个经过深度定制和优化的商业模型,能够显著地提升企业运营效率和水平。

最后,是基于大数据操作系统和建模工厂上的大数据智能应用BD-IA,人工智能产品系列,包括智能标签工厂、智能交互分析引擎、智能语音应用系统,以及基于这些产品形成的富有行业特色、技术领先的涵盖公共治理、智能制造、媒体出版和金融科技等行业的人工智能场景解决方案,持续帮助企业实现数据价值。这些产品也得到了不同程度的完善和整合,能够灵活地组合成用户行为分析、智能运营和营销、市场洞察等各种行业的解决方案。

新增产品线,助力人工智能发展。百分点新增的一条人工智能产品系列产品线。这个系列强调运用自认语言处理、语音识别的人工智能技术,帮助用户完成各类数据分析和运用。这个系列包括三款产品,首先是智能标签工厂,是百分点的拳头产品,一直针对的是用户、产品等十几个建模分析,现在我们把智能标签工厂扩展成知识图谱,不仅包括实体还包括实体关系。新的智能标签工厂能在企业内部建立起一整套企业知识体系,形成标准化的知识数据和数据接口,更好地支持各类智能应用。

第二款产品是智能交互分析引擎,BI分析(商业智能Business Intelligence)是最常见也是最基本的数据应用,但BI分析要求用户理解维度、指标等概念都提高了分析工具的使用门槛。我们的智能交互分析引擎,通过自然语言和语音与用户进行交互,用户只需要对系统描述自己想要什么,而不是告诉系统怎么做,系统就能够通过自然语言理解,将用户的需求自动转化为对底层数据的抽取、分析、组合这一系列的过程,并且选取合适的展现方式将分析结果呈现给用户。另外,智能交互分析引擎还能主动发现数据中的异常和亮点,并主动提醒用户进行深入地分析,且在分析中引擎能够进行智能引导。

最后一款产品是智能语言应用系统。我们的很多企业客户都有大量语音数据特别是客服语音数据,他们急需对这些语音数据进行分析,从中提取出客户的基本信息、偏好、客户对企业以及产品的评价,同时,企业也期望通过智能化的手段对客服工作状态进行评估。

传统出版:践行多场景解决方案

出版参考:请分析国内新闻出版媒体行业使用大数据和人工智能的必要性。

高体伟:当前媒体融合发展上升为国家战略,随着互联网和大数据的飞速发展,传统媒体面临新的舆论生态、社会生态和产业生态,其新闻生产、内容传播、技术创新、产品创新、服务创新等方面都经受着严峻挑战。

根据中央对推动传统媒体和新兴媒体融合发展的重要指示与要求,推动媒体融合发展,遵循新闻传播规律和新兴媒体发展规律,强化互联网思维,坚持传统媒体和新兴媒体优势互补、一体发展,坚持先进技术为支撑、内容建设为根本,推动传统媒体和新兴媒体在内容、渠道、平台、经营、管理等方面的深度融合,形成立体多样、融合发展的现代传播体系显得尤为重要。为积极应对互联网发展带来的传播格局调整和用户需求变化,传统新闻出版企业,特别是报业集团有必要践行大数据与智能化的整体解决方案。

传统出版单位结合当前媒体融合发展的实际业务需求和大数据与智能化前沿技术,在深刻理解互联网发展带来的新闻传播格局调整和媒体用户需求变化,可以联合百分点为受众提供全媒体资源汇聚融合、全媒体数据资产管理、全媒体智能服务管理、全媒体用户洞察分析、新闻热点传播洞察及影响力分析等多场景解决方案,帮助用户提升“数据整合、能力共享、应用创新”等各项业务能力,助力新型主流媒体和媒体集团融合发展。

出版参考:百分点在国内媒体行业大数据与人工智能升级方面有着领先的技术,请具体介绍媒体行业报业大数据与智能化整体解决方案的方案概述与应用场景。

高体伟:百分点基于自身核心的大数据技术,分布式技术、微服务技术、容器技术、自然语言处理技术、机器学习、深度学习等技术能力,结合当前媒体内容业务的实际需求,构建媒体行业大数据支撑能力,提供全媒体数据资源统一接入、全媒体大数据资源管理平台、媒体智能分析引擎、媒体智能服务引擎、智能数据服务平台等多项媒体大数据功能系统,实现了从媒体数据资源的接入、聚合、整理、全生命周期管控,到媒体数据资源库进行业务方面的大数据应用和分析挖掘,并能够为媒体各类业务应用提供数据资源的智能化服务,形成传统媒体和新兴媒体业务的一体化深度融合,帮助传媒企业打造出全新媒体融合发展应用服务体系。

1.全媒体资源汇聚融合

全媒体资源汇聚融合基于核心采编业务,将散布在各部门和采编环节的撰稿素材资源数据、内部稿件数据、产品资源数据、运营数据、用户行为数据、互联网资源和第三方数据等各类数据资源进行统一汇聚管理,构建基于传媒企业自身特点的全媒体资产数据汇聚融合能力。同时基于全媒体数据资源统一接入和全媒体大数据资源管理平台实现对多源异构数据资源的统一适配接入管理,实现对采集接入的多方数据资源进行统一高效的智能化分布式自动聚合存储。

2.全媒体数据资产管理

全媒体数据资产管理,能够赋予传媒企业基于大数据技术的全媒体资产大数据管理能力,提供针对媒体大数据资产的全生命周期的数据存储管理、数据标准管理、数据流程管理、数据质量管理和数据安全管控。通过从宏观到微观的数据管理视图,实现对互联网数据资源、内部稿件数据、产品数据、运营数据、用户行为数据等各类数据资源的全生命周期管控。实现传媒机构内外部及第三方渠道等数据资产的动态掌握,了解当前的数据资产来源情况、数据量、数据质量、数据接口、数据使用频次、数据共享情况等。大幅提升数据管理效率,并满足采编发、供稿、新闻信息统计监测、生产指挥调度等相关业务的数据管控需求。

3.全媒体智能服务管理

全媒体智能服务管理,基于微服务技术和容器技术架构提供自然语义分析服务、智能推荐服务、智能检索服务、数据订阅服务、标签服务等,同时能够对各类系统服务进行自动识别、轻量级封装化分布式部署、负载均衡、统一管理、跟踪监控、用户审计和授权等服务管控功能。实现针对采编数据、供稿数据、多媒体数据、互联网数据、第三方渠道数据、用户行为数据等与新闻采编发、新闻供稿、生产指挥调度、新闻热点传播洞察、新闻影响力分析、新闻信息统计监测、统一用户认证、业务管理与运维监控等业务系统间的服务化支撑,满足数据资产对业务系统的分发共享、数据在线交易、数据调用等需求,实现全媒体信息智能化服务管理,满足传媒企业各类公共性大数据应用服务及管理需求。

4.全媒体用户洞察分析

全媒体用户洞察分析,能够全方位深度洞察传媒生态圈中的内外部用户,通过全触点的用户数据整合和拉通,构建完善的媒体用户标签体系及全生命周期用户画像,并对用户画像特征信息进行精准标识刻画,具备宏观、微观和多维度的用户画像分析与浏览,能够根据用户特征如地域、年龄、兴趣等进行分聚类分析,实现传媒企业对内外部用户的价值度分析、偏好分析、特征分析和倾向性分析等,深度挖掘用户价值,从而最大化地释放用户需求,促进传媒机构基于以用户为核心的不断优化创新能力,在产品形态、传播媒介、内容选择等多方面,更加贴合用户需求,不断增加受众黏性,提升内容的阅读量和传播力,扩大媒体影响力和辐射度,切实有效落实以用户需求为核心的战略目标。

5.新闻热点传播洞察及影响力分析

新闻热点传播洞察及影响力分析,提供基于大数据技术的传播影响力分析挖掘能力,形成新闻热点传播影响力数据模型和指标体系。通过对互联网新闻数据持续性的大数据实时分析,实现对网络媒体、社交媒体和报刊上的传播和影响力深度分析,实现对新闻热点稿件或特定主体如时间、地点、事件、人物架构等维度的分析,实现对新闻热点事件进行传播追踪,形成关键粉丝分析、倾向性分析、观点分析等,为传媒企业新闻生产提供大数据传播影响力分析手段。

相关领域
人物