即构科技技术副总裁冼牛:实时音视频云如何赋能商业创新

即构科技技术副总裁冼牛:实时音视频云如何赋能商业创新

2018年8月9日,品途集团举办的2018·NBI夏季创新峰会在北京召开,本次峰会主题是“与创新节律同步”,旨在探讨商业领域的发展规划和创新趋势,并持续关注科技前沿、零售消费、泛文娱、大健康、教育、旅游等10大领域,品途集团希望通过峰会的交流与合作,让创新“更有价值 ”、“更易触达”、“更有用”。

当天主会场中,中国电商委主任兼秘书长苏军、微软中国CTO韦青、阿里巴巴集团新零售研究中心主任崔瀚文等嘉宾,就产业创新等发表主题演讲。

分会场中,场景实验室创始人吴声、全时创始人兼CEO陈学军、Boss直聘创始人兼CEO赵鹏、《吐槽大会》卡司、笑友文化CEO史炎等嘉宾,分别发表了关于消费零售、企业服务、消费、文娱创新等领域的主题演讲。

在关于《新企业服务的“做局”与“破局”》的企业服务专场中,即构科技技术副总裁冼牛发表了《实时音视频云的商业创新赋能》主题演讲,他认为:一个公司要构建壁垒的话绝不能仅仅只靠技术,而是要以技术为出发点,满足客户和行业的内在需求。

以下内容经品途商业评论精编整理:

感谢品途提供一个这么好的机会,让我能够与大家分享实时音视频的行业趋势和自己在企业服务领域的一些心得体会。

简单说一下即构科技,我们是一家实时音视频云服务提供商,创始人&CEO是QQ前总经理,我们的客户来自多个领域,有视频直播的映客、花椒直播、喜马拉雅FM,以及在线教育领域的好未来、轻轻家教等。

今天的演讲内容包括几部分:首先介绍下实时音视频是什么,如何在业务中应用,有哪些新的玩法。其次是新的玩法背后需要什么样的技术来支撑,典型的就是跨国实时传输的网络,最后我会分享一下即构科技实时音视频云to B的企业服务之路。

如何理解实时音视频这个概念?我以直播场景来举例,例如主播1往视频云上推流,观众拉流观看,即形成了单向直播的场景。观众能够看到主播,但是主播看不到观众。另外一种像刚才一样,主播1推流出去,观众拉流观看,其中观众1希望能和主播1视频连麦互动,这时观众1也会推一路流出去,主播将观众1的音视频流拉下来观看,这样他们之间就构成了一个相互拉流观看的场景,相互都能看见对方。同时他们两个的音视频流会被实时的内容分发网络分发给观众来观看。什么是实时音视频,就是说实时马上能看到。

实时音视频怎么玩?视频直播或者在线教育已经处于一个比较成熟发展的阶段,最近这半年在线教育出现了一些新的玩法,例如在线的钢琴陪练。老师通过ipad给小朋友上课。老师会仔细听小朋友的钢琴演奏的效果,给他提建议,同时老师也可以演奏钢琴,给小朋友示范练习,整个过程是一个云视频沟通的场景。老师跟学生分别把他们的音视频流推到实时传输网络,然后相互都把对方的音视频流拉到ipad上观看,这样就构成了视频通话的场景。小朋友的父母亲可以从CDN侧拉流观看老师和小朋友上课的情形,这就是在线钢琴一对一陪练的场景。

技术上能满足什么要求呢?首先延迟要比较低,其次是要流畅没有卡顿的感觉,不能影响整个的体验。如刚才提到的钢琴陪练视频,清晰度要达到720P,针对音乐声音,采样率要达到48kHz,也即是全带语音,才能够比较完好地还原音乐效果,音频的码率要超过100kbps。最后两个关键技术就是噪音抑制和回声消除。噪音抑制是把背景的噪音去除掉,但不是去除掉所有的噪音,要针对心理学模型保留适当的舒适噪音。回声消除,就是把老师跟小朋友之间的通话回路的回声消除掉,我们期望麦克风是全向性的,如果是定向性的,需要把硬件的回声消除功能关掉,使用软件的回声消除模块来消除回声。

下一个场景是线上的KTV房,这是我们的客户酷狗直播的一个应用场景。有N个用户等着排队唱歌,跟线下的K歌房一样,围观的用户都能够听到我K歌的声音并看到字幕。这里涉及的技术就是要把歌者的声音还有伴奏的声音歌词全部混在一起,再通过音视频的通道、实时传输网络实时传输出去。观众在听我唱歌的时候,能够听到我有没有跑调、背景音乐是否协调,如果不协调,体验感会很差。

另一个场景合唱直播,这是KTV直播场景的一个延伸,唱歌的人不是一个而是多个。去年12月的时候,马云和王菲合唱了一曲《风清扬》,我们如果把合唱搬到线上是这样一个效果:他们分别在两个不同的直播间,看着MV视频画面,听着伴奏,就像在线下KTV里K歌一样演唱,最终围观的观众可以在手机的APP上看到马云和王菲还有MV叠加的视频画面,还可以听到他们两个合唱和背景音乐混在一起的效果。这就是时下比较流行的合唱直播,把线下合唱的场景搬到线上视频直播里。

这个场景下我们有两种方案,一种方案是能够让马云跟王菲两个人相互连麦听到对方的声音,一边唱一边聊。这个好处是会有更多的互动,缺点是可能会出现一些歌词上的不同步。第二种方案是让马云能够听到王菲的声音而王菲听不到马云的声音,保证做到歌词跟背景音乐还有两边唱歌的声音是完全同步的。

最后一个场景是跨国的在线教育,例如跨国互动小班课堂,多个学生可以和老师实时互动上课。当前互动小班,PC端我们可以支持32个学生同时上课,手机端可以支持20个,此外我们还提供老师跟学生写写画画的白板。我们的客户好未来反馈说小孩子特别喜欢这一种功能。另外还有双师课堂,比如说在北京有一个名师在考研的冲刺班上讲课,在深圳、上海和杭州等城市的多个教室的学生们也希望听到这个名师老师的课,双师课堂的解决方案在名师的课堂部署一个录播机、两个摄像头、麦克风等设备,各个城市的N个教室里的学生能通过他们教室里的录播机收看到名师上课的情形。因为远程有一位名师在授课,本地有一个老师在辅导,所以叫做双师课堂。

基本上我们服务的行业包括了视频直播、在线教育、视频社交、游戏语音、物联网、家庭陪护等领域。我们能在全球范围做到低延迟(100ms)、高清不卡顿,这得益于我们底层自研的音视频技术引擎,得益于我们在全球超过200+BGP节点的网络覆盖,得益于超过16年的音视频技术积累。我们的客户分布在全球100多个国家,覆盖中国、中东、北美、东南亚、北非等国家和地区。

最后分享一下我在企业服务领域中的一些感受。企业服务也就是通俗说的to B的公司都会面对一个两难的问题:客户提很多碎片化的需求,应该做还是不做?对于to B的公司来说,最理想的情况是做一个产品,不用修改就可以让所有的客户使用,现实中是很难做到的。

这时候需要有一个纪律或者说原则:什么样的需求应该做,什么样的需求不应该做?我推荐遵循这样的一个原则:如果做的需求会沉淀为资产的技术,能增强公司的技术优势,那么就算钱少事多也要做;如果做的需求成为一次性的技术,这个投入就是成本,就算给的钱多也不能做,因为这样的需求消耗的机会成本往往难以估量。

因而,我们需要洞察能变成资产的需求,通过做这些有代表性的需求来逐渐构建技术壁垒;同时也要抵制貌似看起来钱很多的项目的诱惑。如果投入变成成本,钱再多也不能做。

to B公司经常遇到的另一个问题是:应该技术导向还是客户导向?

to B公司创始团队往往都是技术十分强的充满工匠精神的工程师,他们往往倾向于技术导向。然而从长期来看,我认为一个to B公司必然是以客户导向的,逻辑很简单:再好的技术也需要服务客户的需求。

to B公司在发展的初期,最早的几个大单子往往都是CEO卖出去的,CEO既是总架构师,又是首席销售,即构科技也是这样。以技术起家的团队一般都经历这样的发展历程:首先,创始团队基于对技术和产品的前瞻性,开发出领先于市场的新技术。例如即构科技在2015年末推出连麦直播,就是基于团队在连麦互动这种产品形态的一个超前的判断。然后,经历了长期服务大量顶级客户以后,技术团队开始慢慢从客户的需求出发,从客户的角度来看问题,考虑怎么给客户带来价值,帮助客户成功,成就客户从而成就自己。

当然,对技术的前瞻性和帮助客户成功是相辅相成的。一个以客户为导向的to B团队,逐渐会在多个领域构建成壁垒。领先于行业的技术是一个壁垒,能打硬仗训练有素的销售团队是另外一个壁垒,对业务的深度理解、在行业里深度的人脉关系是其他的壁垒。只有在多个领域构建壁垒,形成护城河,最终才能得以发展。

我今天的分享就到这里,谢谢大家。

相关领域
人物