百度技术开放日：林元庆表示声纹识别和AI视频分析潜力巨大

2017年04月11日下午，百度在中关村软件园国际会议中心召开了“第五届百度技术开放日”活动，百度研究院院长、深度学习技术及应用国家工程实验室主任林元庆、百度技术技术负责人、百度云联席总经理刘炀、百度技术委员会理事长陈尚义分享了百度机器人“小度”获得《最强大脑》“脑王”背后的技术。

百度研究院院长、深度学习技术及应用国家工程实验室主任林元庆先介绍了百度在《最强大脑》使用到的技术。

林元庆,百度技术开放日,林元庆,人脸识别,声纹识别

以下为林元庆演讲整理：

第一个是图像检索技术，即在几十张图像里面（图片做了模糊处理），扣一小部分出来，识别出这部分小块图像来自哪张图。百度是利用深度学习技术，可以很好处理模糊、噪声和角度不一样的情况。

另外，百度还在做“以图搜图”的技术，比如在网络百亿级别的照片里，搜一张与目标图类似的图，而且能够在一秒之内找出结果。目前世界上只有几家公司在做，比如谷歌、百度，以及俄罗斯的一家公司。

第二是声纹识别。它跟语音识别不一样，语音识别是识别声音，而声纹识别是识别谁在说话，因为声音有很多的噪声，这个技术难度非常高。

为什么声纹识别这么重要？这主要体现在三个方面：

1、身份认证非常重要，比如在银行领域，对精度的要求非常高，其实美国标准是同时有两种方法认证，即同时有人脸识别和声纹识别。

2、百度重视基于AI的交互，交互最初指的是键盘、手机触摸，现在已经进入到了下一代：语音。百度度秘OS是基于语音自然交互的场景，而且声纹识别可以帮助实现识别语音是谁。

3、跨年龄、跨代的人脸识别。市场的普通的人脸识别已经能做得非常好，但是跨年龄、跨代的人脸识别难度非常大。

跨年龄人脸识别能帮助寻找走失儿童，今年3月份，百度和“宝贝回家”合作找到一位走失儿童；跨代的人脸识别能通过父母的照片，找到哪个是他们的小孩。百度在跨年龄、跨代的人脸识别领域已经是世界第一。

百度还在布局AI视频分析，主要从两个方面：

一个是视频的语义理解，即发现视频里面是谁，他在干什么。这种技术可以应用于通过长视频剪短视频的场景。

另外，百度正在搭建一个大团队，主要研究检测、分割和3D重建的统一框架。比如自动驾驶的场景，汽车上的摄像头拍出视频，系统通过视频能分析出摄像头的精确位置，即三维重建，百度希望能达到99%的精度。

此外，百度还在研究AI医疗图像分析，目前已经搭建了一个世界一流AI医疗团队。

对于未来，百度希望更开放地共建AI生态，希望百度人工智能技术，能够通过大家去落地。人工智能是百度的最重要的战略，这两年每年的研发投入都超过100亿。