慧川智能CEO康洪文：开放API 帮助全网视频结构化| CCF-GAIR 2017

过往视频编导的标签几乎都是熬夜、通宵，每天工作到凌晨三四点甚至通宵是常态。慧川智能CEO康洪文看来，这中间存在太多的重复劳作，因此，去年年底，康洪文与团队成员共同确定了AI+视频的创业ider。

7月8日，雷锋网承办的第二届CCF-GAIR全球人工智能与机器人峰会AI+专场上，康洪文重点介绍了AI+视频中，视频的创作以及视频处理理解两方面工作。

首先，关于视频创作，慧川智能希望做到“让人只要会写文章，就会做视频”。对于人来讲，创造力是无限的，文字工作者有强大的图文创造能力与讲故事能力，不该被制造视频的繁琐工作局限掉。加之如今短视频市场的爆发趋势，更该大力布局。

据雷锋网了解，目前视频网络用户已突破5.5亿，并保持每年8.1%的增长速度。

康洪文以公众号文章为例称，通过到头条以及微信公众号平台统计，这两个平台每天产出文章数量为100万篇以上。根据大数据分析，里面67%的文章都非常适合用视频的方式来呈现，以及这种类型与慧川智能研发的技术也非常契合。重要的是，目前这两个平台上视频覆盖率还非常低，因此有一个非常大的空间等待填补。

除了公众号，以淘宝为代表的电商上有十亿级商品，也被寄予制成视频的希望。康洪文现场演示，基于网页界面，将任意网页或文字输入，后台AI算法会根据这段文字进行分析，找到里面所有关键点，比如提到阿尔法狗和柯洁的比赛，后台就根据自然语言去处理这些关键部分，如时间、地点、人物。通过文章的语义分析，自动与素材进行匹配，对每一段话、每一个句子找到对应的多媒体素材，比如图片、视频、社交媒体分享，进而自动生成故事线。

康洪文表示，如此步骤下，生成可以直接使用的视频，是最理想状态，但如果有需要进一步修改的话，可以在生成界面基础上再进行素材调整，比如，还可以截取每个视频片段长度、起始时间，甚至在图片上添加一些像画字或者文字的信息。

据雷锋网了解，通过慧川智能系统，视频制作效率可能被提升近百倍。之前花费几小时制作的视频，如今通过智能手段，可被压缩至几十秒。

在具体步骤上，首先根据输入文章或者网页进行文本分析，通过自然语言处理技术分析发现关键信息，之后再跟结构化素材库进行匹配和搜索，找到相关的图片、视频片段和社交媒体，之后还有部分延伸的广告进行匹配。慧川智能提供简便的在线剪辑和预览平台，客户只需要注册一个账号就可以进行剪辑，以及视频预览，满意之后直接点击生成视频，在云端即可生成下载。

整个提升视频制作效率的系统结构，大致分为三部分——计算机视觉、自然语言处理、以及大规模计算。这三个部分正好对应慧川智能三位创始人的背景——康洪文康慧文于卡耐基梅隆大学专攻人工智能视频理解，CTO黄健博士是康在微软的同事，在谷歌从事过搜索引擎与商品推荐，首席架构官刘曦博士主攻大视频分析平台。

康慧文表示，面临的最大挑战是对视频结构化信息一无所知。从根本上讲，慧川智能是希望将视频结构化，根据三维形态的视频流，理解其内部的人与物，以及他们正在进行的动作，把它构建一个精确到帧级的视频内容标签。

同时，康洪文表示，此次会开放一个API，帮助对视频有需求的人进行理解，进而促进全网视频结构化。其主要包括两大功能——一个是视频内容的理解和标签化，提供包括时间、地点、人物、事件等一千多个视频结构化标签。另外，慧川创造了全球明星的数据库，当输入一段视频，后台可以将这个视频出现的所有明星，出现的位置，从第几帧到第几帧的具体位置全部标注出来。目前慧川智能已收录全球最知名的500位明星。