2018年05月25日,由亿欧举办的“GIIS安防AI创新峰会”在北京千禧酒店盛大召开。其中,快商通创始人肖龙源的演讲题目是《声纹识别+安防:助力平安城市建设升级》。肖龙源是厦门快商通科技股份有限公司创始人,首席产品经理,人工智能崇拜者。
他的个人经历很富有传奇色彩,专注于人工智能和大数据技术与应用服务的研发和创新,在声纹识别、自然语言处理、大数据、智能语音领域具备行业领先的技术研发优势。服务了平安集团、国家电网、南方航空等客户。肖龙源还入选国内人工智能创业30人榜单,入选厦门杰出青年及青年创新创业(青年双百)人才,国立华侨大学统计学院兼职教授,厦门大数据科学研究基地名誉院长。
在演讲现场,肖龙源先介绍了声纹识别技术的发展历程与应用优势,随后从公司业务出发,为在场观众举例说明了声纹识别的应用场景。在演讲的最后,肖龙源介绍了自己对于安防行业的理解与愿景,肖龙源表示,希望能用他的产品和技术服务于30亿人。
【肖龙源现场演讲实录】
大家下午好!我今天演讲的内容是关于声纹识别的,它与图象识别、指纹识别有一个共性是身份特征提取,指纹按一下就知道你是谁,声纹识别就是你说一句话就知道你是谁。
声纹识别的优势
我们人类至少99%的信息交流通过语音来完成的,这是为什么呢?其实我们现在所有的视频、所有的安防应用都是只用一个能看的东西,但其实人还有一个功能是能听,能思考。
2017年习近平总书记多次喊到社会治安立体化防控,这个防控分为两个:一个是多维度防控,相当于音视频能够相融合;另一个就是多层次防控,声纹识别是识别完身份,同时还能够能把你所说的话表达出来,用语音识别翻译成文字,然后做自然语言的提取让你能做思考。设想一下,未来我们走在路上,如果你此时想要评价政治或是政府官员,那你要小心,因为在公共场合下,你的人脸加上你说的话全部都会被采集。所以未来讲悄悄话最好是到闺房去讲,因为在你房间里摄像头是不会放进去的,还有一个地方不会放摄像头,那就是厕所。
然后声纹识别的优势是什么?在提取身份特征时,如果你用指纹来比对,必须要接触,而声纹识别不用接触。如果跟人脸识别来做比较,人脸识别如果被拍照的话就会比较担心,相对来说声纹识别的抵触性会没那么大,随便说一段话就可以进行。这是声纹识别的优势。
声纹识别技术的发展历程
我今天并不是要来讲优势的,声纹识别的发展其实比较苦逼。我和我的团队归纳声纹识别的历程有四个阶段,包括三个跨越式的发展,2000年前声纹识别都是用模板比对的方法,2000年后都是用罗纳德使用的模型来做声纹识别的验证方法。
后面又经历了十年的探索和沉淀,有三个机构首次公开,一个是算法,它使用的原理是什么呢?即用不同长度的语音,可以提取到固定长度的低维度数字算法上面来做身份特征认证。也就是说当这个算法出来之后,它标志着声纹识别也可以用深度学习的方法进行处理。
2011年微软和谷歌先把这个方法用在语音上面,用深度学习网络来做学习方法,做到了30%的识别率。随后我们快商通是把深度学习的方法用在声纹识别上面,我们从2011年就开始做声纹识别了,用在这上面标志着声纹识别也开始使用深度神经网络来提升识别率,所以这个是整个声纹识别技术发展的四个阶段,三个跨越式的发展。
声纹识别的应用场景
刚才介绍了我们技术的发展历程,推荐一下我们向全球开放的六个模块,主要还是针对安防来做。
声纹识别身份认证云是几个场景比较容易理解的。有一些无人便利店很火了之后对我们发出邀请,邀请我们做测试,希望用户摇摇头、眨眨眼就完成支付,这是活体测验,加起来差不多10秒左右。拿我们的声纹识别做活体检测,用户说一段话就可以完成支付,差不多在两秒钟左右。人脸识别加上声纹识别会有很好的融合,也能够为技术带来一个提升。
声纹识别在社保等等场景也运用得比较多,再就是电信反欺诈系统。2016年-2017年微软大数据调查网络诈骗50%以上来自于电信诈骗,而声纹识别它可以把语音和电话完美融合,所以声纹识别我们现在比较大的应用场景就是在金融领域。举个例子,我们去年开始给平安银行做声纹识别算法提供商,应他们的要求,我们为所有拨打9511和400电话的人都进行了身份验证,验证这个人有没有骗过保或者骗过单。我们能做到10亿同时检索,识别率可以达到80%,现在市面上普遍的只达到60%,这是我们做了一个很大的技术上的提升。
三是音频结构化与视频结构化,现在是完全融合的,我们称之为音视频双监控。习近平总书记说社会治安立体化防控要作党多维度和多层次,当我们视频进入模糊、看不见、天黑,或者是面板挡住、遇到盲区时,当你在视野上看不到的时候当然可以用耳朵听到,可以判断这个人的身份、年龄、情绪,可以用环境的检测来弥补视频的不足,减少周围环境意外事件的发生。
四是大数据研判,其实是应用我们的大数据技术,基于海量的音视频信息,通过快速的定位到时间点上面搜索出我们想要的音频或者视频内容做结合。这里其实有一个好处,我们做了一个刚才我前面讲的,可以根据人的口音、年龄区间,还有声音说出来,比如说盲区的时候可以通过声音听出是男的还是女的。还有情绪,比如说你很激动等等,这些都能提取,通过多维度弥补我们视频监控的不足。
智能芯片。我们现在比较流行的一个关键词叫边缘计算,我们摄像头上面也有一个芯片,叫声纹语音芯片,跟摄像头装一个芯片是一样的。今天中午吃饭大家提到嘈杂音怎么办?这个技术很多人都在解决,我们也在美国很出名的杂志上发了两篇论文,如果很嘈杂的声音在十米以内有人说话我听不见或者听不清楚怎么办?这个芯片其实能用来解决十米以内噪音的。我们也是有开放的一个平台,把这个植入到监控摄像头上面。我是技术出身,技术达到什么样我不关心,我关心的是能不能解决问题,能不能把气噪声音解决掉,这是能够完全可以的。
刚才讲到声纹识别场景分线上线下,这个我就不多说了。
肖龙源的安防远景
其实对于安防来说,我谈一下个人见解。习大大举全国之力发展人工智能,这次特朗普搞贸易大战,其实是针对我们2025中国制造。从2017年7月份开始,我们公司专门成立了一个部门来接政府的项目,赋能产业升级。今年年会之后我立马开始讲赋能产业升级,我也在整合别人的一些技术,但是整个声纹战略的语音都是我们的技术。
刚才讲了既然特朗普他们在扼杀2025制造,不希望国家先把市场开发出来,其实我们的市场技术没那么成熟,为什么要开发?举全国之力发展,从互联网到移动互联网不敢喊,就希望用技术,用市场需求来倒逼技术的发展。国家现在也在搞什么,你给我钱你给我货,在美国还没有达到这种要求,他们AI用的都是华人。要赶上这一票,在座的可能搞安防的都是在按这个路子来,你提要求我给你货,共同推进中国的发展。
中国后来搞了“一带一路”,我们有一个愿景,有一个希望,这个愿景就是希望能拿我的产品和技术服务于30亿人。这个愿景比较大,我原来属于少年得志,我是白手起家,什么都干。主要是靠互联网,做分发流量,最多一年可以做一个多亿。后来因为天天喝酒跑去检查了,人家说可能是肝癌,后来就去医院检查了,检查了两家说没事儿。第二家医院第三家医院告诉我的时候,我突然在想,我现在要么回家种田过日子,要么就好好的服务社会。当时我下了一个决心,希望拿我的产品和技术服务30亿人。
我从2011年开始做人工智能,2013年完全是我个人投入,所以我赚回来的钱都往里面投入。早期亿欧的小伙伴们在专访我的时候取了个标题,我感觉很形象——《明明是生意人为什么要当科学家》,梦想用技术去让这个世界变得更好!所以我们希望做成音频、视频合成一带一路,用产品服务于30亿用户。
谢谢大家!