云知声CTO梁家恩详解全栈AI技术架构:构建多模态拟人化智能系统
DoNews3月27日消息(记者 翟继茹)27日,云知声举办了成立七年来第一次以AI技术为主题的开放日。在这次开放日上,云知声董事长兼CTO 梁家恩详解了云知声全栈式AI的技术架构。
梁家恩首先提出,在2016-2018年之间雨后春笋的出现了许多伪AI公司,随着AI行业回归理性,真AI公司只有将人工智能技术与产业结合才能够更深远的走下去。
基于AI+产业的发展思路,云知声要做的是两件事——全栈AI技术和硬核技术。
全栈
1. 构建多模态生态拟人化智能系统
梁家恩解释,从语音交互起家的云知声目前的技术图谱已经超了语音能力范围,包括感知、认知和表达能力,用视觉和听觉、降噪和语音识别、对话管理系统、行业智能系统、人脸和语音合成等。为达到多模态的效果,云知声先后推出了其自主研发的智能芯片和超算平台,分别解决技术落地和快速响应问题。
2. 打造完整的产业闭环
梁家恩认为,云知声要将感知和表达技术真正和认知结合,将底层打通。其中之一的问题就是其整体技术解决方案是否可以达到量产需求。
硬核
梁家恩提出云知声的硬核技术包括4方面:
1. 语音技术。
2. 机器智能水平的提升
3. AI芯片落地
梁家恩透露,在AI芯片方面,云知声早在2014年就开始布局,2016年动工,2018年才拿到第一块芯片。
4.超算能力
梁家恩博士指出,云知声很早就搭建了被誉为云知声版“TensorFlow + GKE (Google Kubernetes Engine) ”的 Atlas 机器学习计算平台。基于该平台,向上支撑起信号(AEC/SSP/ISP)、语音(ASR/TTS/VPR/CALL)、语言与认知(NLU/NMT/SDS/ICI)、图像(FID/OD/OCR)等多技术领域的横向扩展和纵向迭代。通过将能力封装在自研 AI 芯片之上,云知声打磨了“云端芯”一体化产品体系,落地“AI+生活(家居、车载、机器人等)”与“AI+服务(医疗、教育、政务、酒店等)”两大核心场景,继而贯通云知声从 AI 技术到产业应用的生态闭环。(完)
以下为梁家恩演讲全文:
各位嘉宾朋友大家早上好,感谢大家能够参加云知声第一次开放日,这也是我们云知声成立七年来第一次以技术为主题的开放日,展示我们技术的实力和一些成果。跟大家分享一下AI回归理性的时代,我们如何看待AI的发展。
我现在自己亲自抓核心技术研发,作为一个在这个行业里有22年学习和从业经验的创业者来说,我们在过去AI还没有火爆的时候就出来创业,2012年我们就已经开始做了。2016-2018年,AI非常火爆。这一段时间我们沉下心来做产业落地。到今天当AI大潮退去,我们站出来说,AI真正的时代到来,我们这样的做法,更代表我们的勇气和信心。
在AI大潮退去的时候,我们的真正的产业机会在什么地方,在2016年阿尔法的背景下,我们看到AI公司如雨后春笋一样冒出来,现在有些伪AI公司已经消失了,一些真正的AI公司还在继续,他们对于技术和产业的态度上的差距是非常大的。真AI和伪AI公司不仅在技术实力上的差距,他们对产业问题的态度上,态度也是比较大的。
AI是一种技术,假如它不跟产业结合的话是一种纯粹 的炫技。AI过去两次浪潮 都没有跟产业结合。我们看到AI第三次浪潮更大的背景是万物智联的时代,这是一个互联网的延伸,从PC互联再到移动互联,到未来万物互联才是真正 的主战场。那么这个主战场 除了AI技术之外,还有IOT、5G,这些技术的结合,会给我们带来天翻地覆的变化,互联网未来从线上沉入到线下,改变我们的消费和整个产业升级,在这个时代会有很大的机会来临。
云知声作为一个专注互联网服务公司,我们跟大家解读一下如何把AI技术和产业结合在一起。
我们在2012年打造三架马车,基于三年我们在移动端的探索,我们发现语音助手在手机上的运用和电视上的运用活跃度相差20倍以上,这给我们一个很大的启发。我们发现只有AI技术跟硬件结合,跟整个物联网产业结合,才有未来。所以在2014年3月份的时候,我们提出一个新的方案,面向物联网未来10年互联网的发展,我们有一些新的设施,我们在2016年开始挑战 远场识别,做一些工程和技术方面的打磨。我们在2016年开始布局我们的芯片、超算平台和云计算。2018年拿到了我们的芯片,超算平台开始铺开,同时把我们全栈的技术构建起来,奠定了一个很大的基础。
到今天为止,我们才有底气说要开一场真正好的发布会,除了讲理论上的技术之外,我们可以讲一些在产业里面的实战结果。未来在2019年,我们将把我们的AI技术和产业深度结合,带来一些变化。那么这些年可以总结一句话,这个市场不接受忽悠,这个产业变革是最大的捷径,我们需要真正 沉下来把技术做好,这样才能走的更远。
在AIOT这个时代已经开始了,后面还会有更大的挑战出现,靠我们的技术和产业的迭代。光靠技术是不可以的,我们只有靠技术能力和产业需求结合,才能推动起来。
我们外面的这些应用一定程度上已经满足用户的需求,但是还有很大的空间没有挖掘出来,这方面的空间非常大。
另外是技术问题,我们面临产业端提出的问题和挑战 ,是需要有足够强的技术来突破。深度学习是这几年非常热的,但是大家知道深度学习擅长解决大数据端到端序列模型问题。如果说是这个模型的话,都可以解决掉。但是在整个产业里面,除了这个问题以外,还有太多 的问题没有得到有效的解决,我们在技术端还有非常大的挑战 。AI并不向大家看到的是一个炫技,更重要的是它是否真正 的解决产业的实际问题。只有把这个问题解决掉,我们才说这个产业真正 的到来,否则的话就是一个泡沫的阶段。
基于这个判断,我们看到云知声对于整个AI哲学是什么,上升到哲学高度,我们认为这个行业是一个伟大的行业,我们认为有两个关键词可以提炼云知声对这个的理解,第一个就是全栈,我们如何把技术和整个产业应用需求价值闭环打通,因为对用户来说 ,没有价值的东西都是泡沫。如何把全栈打通,是我们一直在专注打通的点。
第二个就是硬核,全栈打通以后,我们如何跟产业规模化应用有哪些痛点,我们究竟有没有足够强的技术解决掉。如果没有的话,它就是一个样本 ,不能够生存下来 。所以我们认为全栈和硬核是我们这几年集中打造的核心实力。
全栈可以从两个维度解读,大家知道云知声是从语音交互起家的,但是到今天为止我们的技术图谱已经超过了语音能力范围,包括感知和认知和表达能力,用视觉和听觉、降噪和语音识别、对话管理系统、行业智能系统、人脸和语音合成,最终反馈给用户。我们最终想构建的多模态生态拟人化智能系统。我们认为这个系统的打造就决定了我们未来的产业发展方向。
为了实现这个目的,我们有两块,一个是智能芯片,另外一个是超算平台,一个解决我们落地的问题,一个解决我们快速响应的问题。这是我们对全栈的理解。
全栈第二个维度,我们如何打通一个完整的产业闭环,我们把感知和表达的技术,真正跟认知结合,把底层打通,这是我们做的工作。我们有一个从0到1,从1到10。在技术这个领域,已经比较完美了,但是对产业来说,从1到10才是刚开始,我们能不能从10做到60分,60分意味着什么,我们需要解决产业里面的融合性的产品体系,包括我们整个技术方案,到底能不能达到量产的要求,这里面的挑战 主要是功能和产品运维的挑战 。
做到这一点之后,我们要想做到100分,我们需要把60分结合各种产业应用,把里面的关键性问题解决掉,是我们认为100分的水平。我们今天站在的结点是在这里面比较好的位置。
刚才讲到全栈,全栈的技术图谱包括闭环,如果我们没有硬核的技术,问题还是不能够解决,硬核技术有四大块。
第一个是语音技术,语音技术方向非常成熟,但是在产业落地上面挑战非常大。
第二是机器智能水平的提升,因为它代表我们大脑,如果我们只是鹦鹉学舌,是不能够解决产业的问题的。
第三个是AI芯片落地,我们2014年开始布局,2016年动工,到2018年才拿到第一块芯片。
第四个是超算能力,超算能力使得我们在延伸图像翻译的时候,能够得到非常快的演进,这是我们的硬核技术。
我们可以看到硬核技术,语音是一块,语音框架很成熟,但是要真正落地的话,这四个问题是不能不解决的。
1、大家知道像语音识别在很多年前就提到97%,但是为什么我们在真实的应用里面,现在真实的水平是90-95%之间,在复杂情况下的真实体验。这不仅是一个算法的问题,还是算法加数据加工程的优化,才能达到这样的效果。
端到端的合成,这几年也是非常大的突破。我们可以听一下它的声音,这是我们合成的结果,已经非常接近真人的水平了,这是机器合成的声音。大家可以看到非常高质量和个性化的合成,就可以用非常直观的方式展示出来。
2、硬核就是我们认知能力的打造,我们前面感知做了很多,不过是语音图像,都是把一个信号变成符号的问题,问题是我们如何理解这个符号,如何把这个符号跟我们的业务系统接在一起,这样能够打通我们整个智能的闭环。为什么大家对这一块的感知不是很明显,因为我们一直把我们的语义和语用结合在一起,打造我们的产品体系。大家可以看到很多外面的应用都是用语用的支持在里面的。
2012年开始布局,2013年发布宇用云,到2016年的时候,开始打造一个计算机交互,到2018年开始我们展开医疗方面的布局,包括我们在2017年的时候跟自动化所联合做的计算联合实验室。我们认为我们公司AI核心技术在下半场 里面非常重大的挑战 。硬核技术第二块就是我们如何提升机器技术语音。
3、就是硬件的ALO芯片,大家知道我们现在的芯片在移动互联时代的芯片,显然不适合我们做语音交互的,我们之所以在2014年布局这个芯片,因为我们认为没有好的芯片,这个产业规模化的落地,我们不能等待这个市场给我们生成一个芯片,我们再做这个产业,所以我们开始做这个芯片。
这个云端系统我们在2014年提出,2015年有一个团队,2016年正式启动这个事情,2018年3月份的时候有了第一个芯片,是因为我们有实力的支撑。芯片对于整个AI的重要性,有了这个芯片之后,我们规模化量产就非常简单。我们不仅得到性能 的提升,而且我们有一体化高性能 的交互方案。我们可以把智能交互系统可以做的非常简洁,这是我们规模化量产里面最重要的硬核技术。
4、最后的硬核技术是超算平台,2016年的时候阿尔法横扫全球,大家觉得深度学习非常的厉害,这个概念 非常疯狂。但是我们意识到非常重要的一点。假如说阿尔法狗把它的程序开源,国内没有任何一个平台能够同时调动上千块CPU跑起来。如果没有工业级的超算能力,在工业届就是小打小闹,所以那时候我就去了硅谷,跟阿尔法狗的平台一起探讨,我们如何搭建一个真正强大的一个超算平台。2016年搭建,2017年这个平台出来。有这个平台时候,我们可以非常快速的迭代我们现在的语音跟语意的技术。除此之外我们后台图像翻译技术非常快。我们用了不到一年的时间,就可以在WMT2018年评测上面刷到前三名,还可以在平台热点 问题上(音),是最好的水平。
所以我们不是很热衷技术刷榜这样的问题。但是我们认为技术刷榜能够得到高分,就代表我们没有把这个原理和方法搞错,我们做对了。更重要的是我们如何把这个做对的方法集中解决产业的问题,这就是我们的构想。
超算平台对于云计算的价值,就相当于高铁对于中国经济发展价值一样,让我们的运转 体系提高不止一倍以上的效率。
我们前面说的全栈和硬核可以用这两个图跟大家表示出来,从底层解决方案到行业应用,我们是全站打通的,如果我们只是通过一些基本的技术,让开发商把它做好,这基本上做不成的。我们只有全站打通,才能把这个行业真正的关键点在哪里,才能解决它。
第二是硬核技术,真正突破闭环的问题,我们有闭环的贯通。第二个是开放共赢的平台,只有借助产业的力量把这个市场打通。我们开放包括几块,开放的应用方案,在我提供参数基础上,可以真正各种应用做订制化的点。
第二点,我们在基础的技术层,我们构建联合实验室,包括和自动化所、中科大学、中心科学研究院还有中科大学都做一些比较深度的技术合作。使我们后台 的技术能够得到的持续的提升。
所以全栈跟硬核搭在一起,就是我们闭环的贯通,以及我们开放共赢的体系。
我们之所以能够做到全栈和硬核,最根本就是人,AI就是人才体系,我们没有一个很厉害的人在我们团队里。但是我们在技术届20年的积累,和我们在产业15年的经验,对我们的帮助非常大。我们是国内黄埔军校的体系,在中国的战场上,我们对产业有更深的洞察。我们更强调战略前瞻规划能力,我们有非常强大的技术信仰和强烈的梦想。我们认为技术不仅是对技术的方法理解,我们是否真正建立技术信仰,对这个产业有足够强大的梦想和信仰,是驱动我们向前走的动力。
那我们产品的理念是决定我们构建的能力,还有我们组织管理决定了我们整个系统有足够强大的转运效率。我们有这四点的支撑,使我们在产业里坚定的走到今天,这是我们最核心的资产是我们这一块的能力。
如果我们不能用结果来证明,我们还是在吹牛,我们是否真正沉下心来真正解决行业的问题,我们对汽车、机器人、医疗等,我们都做了很多的事情,大家都看到了。第二个是这个行业的需求是真实存在的,问题就在于我们是否做的更好。如果能够把这个能力加大,我们产业机会会更大,给大家传递这两个信息。
对于未来,云知声想往那里走,我们的一个使命就是让机器更好的服务人类,这是我们公司为之奋斗七年的目标,我们还会继续奋斗下去。
主要解决两个问题,第一个是多模态的交互,能不能变成多模态拟人化的交互能力。第二点是行业问题的解决,我们不能站在行业外面 就说我们不是要颠覆这个行业,而是我们要进入这个行业里面去,看这个产业有什么问题,有些问题是能够通过人工智能技术解决的问题,我们通过去解决这个行业的问题,推动这个行业的发展。
第三点就是有一个支撑,假如说我们底层创新能力不够强,只是靠当下的技术能力推进,我们认为不足以改变这个行业。所以第三点是强调低层驱动能力,只有这个能力不断的提升,这里面包括我们的芯片、超算、机器学习和认知学习的突破,只有这些点的突破,我们只有面对未来的行业挑战和更好发展的问题。
2019年是最好的时代,也是最坏的时代,无论如何AI的大时代已经到来了,但是对于伪AI企业已经消失,只要我们扎扎实实的把这些问题解决掉,市场就会给我们最大的回报,所以这是最好的时代,也是最坏的时代,谢谢大家。