硬纪元AI峰会实录|华捷艾米沈瑄：端加云才是AI和AR的未来

2017年7月9日，由镁客网、振威集团联合主办的“3E‘硬纪元’AI+产业应用创新峰会”在北京国家会议中心盛大开幕。现场200位来自全球AI行业的顶级专家、知名创投机构、创业公司团队和知名媒体齐聚一堂，共谋AI+行业的创新应用，探讨AI的当下与未来。

现场，华捷艾米联合创始人沈瑄给我们带来了主题为“3D视觉系统——打造AR&AI生态”的内容分享。沈瑄表示，未来的人机交互一定是回归到人与人之间交流的本质，即视觉+语音的交互，如此才能相互理解，继而进行充分的交流。此外，关于未来数据应用的方式，在沈瑄看来，无论是AI还是AR，端加云才是真正的未来。

以下为演讲实录（为方便阅读，有所删减）：

大家下午好，我是南京华捷艾米的沈瑄，刚才前几位嘉宾已经给大家分享了非常多的干货，其实人工智能的概念非常的广阔，而我们只是参与了其中的一部分：机器视觉。对于机器视觉这个概念我们也觉得非常的大，从这个车牌的识别到人脸的识别，这都是属于机器视觉，而我们做的是一个3D的一个视觉。

未来的人机交互是视觉+语音

我们说一下人机交互，尤其是人与机器人的交互。包括成人和小孩在内，其实我们大家都有一个机器人梦，从星球大战到钢铁侠，从变形金刚到阿童木，到大白，到哆啦A梦，我们都希望身边有一个机器人可以在生活、学习或者工作中去帮我们解决各种各样的问题。这就需要说到人与机器是怎么交互的。

这就是人与机器交互的一个历史。在50年代，我们通过键盘产生人与人、人与机器的交互，在下一阶段有了windows，我们通过鼠标人与机器去交互，而在2000年左右的时候，苹果的iPhone出来了，我们通过touch、通过触摸即可实现人与机器的交互。

而我们说现在再下一代人与机器是怎样去交互？是视觉加语音，回到人与人之间沟通的本质。比如说我现在跟大家在交流，通过我的脸部、手势，通过我的肢体语言，大家能互相理解，去充分的交流。人机以“自然语言”的方式交互，包括语音交互、语音沟通作为基础，还包括人脸、图像、手势、虹膜、体感等等。

无论是AI还是AR，端加云才是未来真正的解决方案

然后我介绍一下我们公司在3D、AR上面的一些工作。我们公司认为，AR是人工智能在下一阶段能够应用的一个比较好的行业。苹果CEO库克也说过，AR具有无限的想象空间，它打破了虚拟世界与真实世界的一个界限，是下一代人与机器交互的一个新的模式。

我们认为AR的体系应该分成三个步骤去实现：第一是基础技术，包括3D的实时测量、V-slam、人体动作识别和手势识别等等，这些基本的一些活动的元素；到了第二代会具备一些娱乐性的要素，包括换脸、3D美颜等；最后一步则是会实现真正智能化的AR的系统，那可以通过身高、体型、年龄、性别甚至情绪的识别、通过深度学习以及物联网等各种新的技术来达到最终的一个智能化AR系统。

我们现在的芯片是把所有的数据放在里面，主要是在端这边来识别跟计算，而在未来，我们会把云端去打通，也是基于思科在2015年提出的雾计算或者是边缘化计算的这种理想。现在的移动化设备人人都有，全球可能有20亿部手机，到了一定阶段，这个数量会乘以至少7到8倍，也就意味着有140亿到150亿的终端要连接到云端，而其中所需的传输能力跟计算能力是现在的基础架构所实现不了的。思科在15年的时候提出了这个雾计算，就是在IOT的智能终端上把更多的计算，尤其是前端的一些计算放在端的芯片里，然后实时去上传一些预处理以后的数据，而从云端下载下来的是更新过的通过深度计算更新过的一些算法的模型。

所以我们认为，无论是人工智能还是AR，端加云才是未来真正的解决方案，通过终端上传数据到云下载数据，这种简单的模式肯定是远远不够的。

责任编辑：