百度技术开放日:林元庆表示声纹识别和AI视频分析潜力巨大

2017年04月11日下午,百度在中关村软件园国际会议中心召开了“第五届百度技术开放日”活动,百度研究院院长、深度学习技术及应用国家工程实验室主任林元庆、百度技术技术负责人、百度云联席总经理刘炀、百度技术委员会理事长陈尚义分享了百度机器人“小度”获得《最强大脑》“脑王”背后的技术。

百度研究院院长、深度学习技术及应用国家工程实验室主任林元庆先介绍了百度在《最强大脑》使用到的技术。

林元庆,百度技术开放日,林元庆,人脸识别,声纹识别

以下为林元庆演讲整理:

第一个是图像检索技术,即在几十张图像里面(图片做了模糊处理),扣一小部分出来,识别出这部分小块图像来自哪张图。百度是利用深度学习技术,可以很好处理模糊、噪声和角度不一样的情况。

另外,百度还在做“以图搜图”的技术,比如在网络百亿级别的照片里,搜一张与目标图类似的图,而且能够在一秒之内找出结果。目前世界上只有几家公司在做,比如谷歌、百度,以及俄罗斯的一家公司。

第二是声纹识别。它跟语音识别不一样,语音识别是识别声音,而声纹识别是识别谁在说话,因为声音有很多的噪声,这个技术难度非常高。

为什么声纹识别这么重要?这主要体现在三个方面:

1、身份认证非常重要,比如在银行领域,对精度的要求非常高,其实美国标准是同时有两种方法认证,即同时有人脸识别和声纹识别。

2、百度重视基于AI的交互,交互最初指的是键盘、手机触摸,现在已经进入到了下一代:语音。百度度秘OS是基于语音自然交互的场景,而且声纹识别可以帮助实现识别语音是谁。

3、跨年龄、跨代的人脸识别。市场的普通的人脸识别已经能做得非常好,但是跨年龄、跨代的人脸识别难度非常大。

跨年龄人脸识别能帮助寻找走失儿童,今年3月份,百度和“宝贝回家”合作找到一位走失儿童;跨代的人脸识别能通过父母的照片,找到哪个是他们的小孩。百度在跨年龄、跨代的人脸识别领域已经是世界第一。

百度还在布局AI视频分析,主要从两个方面:

一个是视频的语义理解,即发现视频里面是谁,他在干什么。这种技术可以应用于通过长视频剪短视频的场景。

另外,百度正在搭建一个大团队,主要研究检测、分割和3D重建的统一框架。比如自动驾驶的场景,汽车上的摄像头拍出视频,系统通过视频能分析出摄像头的精确位置,即三维重建,百度希望能达到99%的精度。

此外,百度还在研究AI医疗图像分析,目前已经搭建了一个世界一流AI医疗团队。

对于未来,百度希望更开放地共建AI生态,希望百度人工智能技术,能够通过大家去落地。人工智能是百度的最重要的战略,这两年每年的研发投入都超过100亿。

相关领域
商业