2017年09月21日,由腾讯云主办的2017“云+未来”峰会在上海举办。
本次峰会,腾讯云提出“以云为源动力,连接智能未来”的发展方向讨论技术的发展,并邀请多位嘉宾分享行业理念,以下腾讯优图实验室总监、专家研究员吴永坚现场演讲速记。
吴永坚认为,人类真正优越于人工智能的,不仅仅是更强大在逻辑推理能力和创造力,更重要的是他有一个神圣的道德感和责任感,正是因为这种道德感和责任感,把人类引向一个又一个新的纪元。
【吴永坚现场演讲实录】
大家上午好。关于人工智能,在刚才英特尔的陈经理演讲中已经在行业领域的趋势和应用描述了一个大蓝图,给我们对人工智能很美好的憧憬。今天我会从另外的角度“社会温度”来讲讲关于人工智能,从更贴近我们的角度去描述人工智能。结合刚才演讲,从两个方面,一“刚”一“柔”,更立体描述人工智能。
接下来我给大家提一个问题,最近不断听到关于人脸识别的技术新闻,比如IphoneX推出的faceID人脸识别技术,还有之前很多在人脸识别竞赛不断刷新世界纪录的新闻。那么到底人脸识别技术是不是已经被我们完美解决了呢。
接下来我们看一下人脸识别在数据和研究层面的发展。人脸识别中最著名数据库莫过于LFW,它是在非约束条件下的人脸识别的数据库,是马萨诸塞州大学所公开的人脸验证的测试集。这个测试集是从网络收集到的13000多张图片,并有6000多个测试对进行评比,每个测试对给出两个人脸图像并咨询这两个图像是否同一个身份。如果程序在这些测试对回答完全正确,那它的准确率就是100%。人类在这个测试对里的能力可以达到97.53%,也就是6000个测试对里不到200个测试对人类会识别错。
人脸识别技术在很长一段时间发展较为缓慢。2014年之前,在这个数据库里面一直没有能够超过人类的能力。但是深度学习到来之后情况很快就被改变。首先突破这个能力的是在2014年香港中文大学刷新了记录,达到98.52%识别准确率。这有很大历史意义,意味着人脸识别问题,机器超越人类,可以比人做的更好。
接下来看一下人脸数据库这块的发展,从2000年的Feret到2006年的FRGC,再到2008年的LFW,以及最近2015年的Megaface,这是一个数据从小到大、挑战越来越大的过程。其实数据库不断在推动技术向前,而技术的发展也推动着整个数据库的不断推陈出新。随着深度人脸技术发展,LFW已经不是难度最大的数据库。华盛顿大学所推出新的数据库Megaface,第一次在百万人规模中进行识别,这个难度更大。优图在今年3月份在该数据库中刷新了当时的最高世界纪录,达到了83.29%的水平。
在图像领域方面,ImageNet比赛,大规模视觉识别挑战赛,是当今在视觉领域最著名的比赛。2017年今年最新的成果是一家创业公司Momenta所刷新的97.75%,已经达到非常高的准确率了。图象识别领域也有类似人脸识别的发展,从Caltech到PascalVOC再到ImageNet,从一百多个类别到上千个类型。可以看出技术和数据库的相互影响和推动,双方不断前进发展:老的数据库完成历史使命,新的数据库又涌现出来,技术离“终极”目标-复杂的真实世界一步一步的接近。
回到刚才所问的那个问题,人脸识别是否被解决?从局部来看,在某个特定的数据库里面它真的很好解决了,但是在真实的情况里面是不是有这么好?当前的测试集是不是跟真实情况有很大的相似呢?
接下来我先给大家讲一个故事,关于我们团队的0.15%的故事,看起来这个数字是非常微不足道,而且很冷冰冰,它背后到底是什么样的故事呢?
首先我给大家看三个真实的报道。从这三个报道中,大家看到两个数字:第一个是20多万名的儿童失踪,第二个是50多万名的老人失踪,这些是真真实实中国的难题,关于失踪人口的问题。这么大的数据背后牵连了多少个破碎的家庭,更关键的是我国人口密度大,幅员辽阔,寻找一个人如同大海捞针。随着互联网发展,社会上会有一些公益的活动,如微博的打拐、“宝贝回家”等公益活动,但是大家可以想像得到,完全以人找人,作用微乎其微,我们能够依靠的是什么,是我们技术的发展。
从2015年6月的时候,我们在LFW库中已经刷新了当时的世界水平,99.65%,但问题是这么好的技术是不是可以基于人脸识别解决失踪人口的问题呢。所以我们联合腾讯公益,希望在街上看到可疑失踪的人口,随手一拍就可以从失踪库里面得到相关信息,并根据这些信息去找对应的人,这个想法是非常好的。
产品还专门想了一个很有温度的产品名字“MissU”。可是理想和现实总是矛盾的一对。当技术人员拿99.65%的技术去真实世界里面检索,发现检索的准确率只有40%,40%看起来也不是特别低,但是大家要理解,在真实的走失人口库里面,它是千万甚至到亿,有可能到亿这个级别,查出来的准确率会相当的低,完全达不到使用水平,因此现实离真实应用水平是相差还是很大。
虽然刷新了世界第一的技术水平,但是对于人口失踪这样的真实问题还是束手无策。所以给了我们团队一个警醒,当前的技术如果只是基于类似LFW的研究数据集进行研究,距离在真实世界的落地应用还很远。
接下来的我们就把技术回炉重造:期间经历了150天、193次迭代和1056次的模型训练,让人脸技术达到了0.15%的质的提升:人脸验证准确率在LFW上从99.65%提升到99.80%。区区的0.15%的提升,但在海量人脸检索准确率从40%提升到83%。我们是怎样做到这样的提升,可以从技术和数据两方面去说。
从技术本身,优图自身的技术研究角度看,第一步从0到1,根本的还是要从技术出发。所以在极深的网络深度学习、大数据和GPU集群计算一起去作用。我们从基础模型,从最开始使用现成成熟网络模型去训练,后面不断的研发优化出属于优图的深度模型:祖母模型,该模型向着极深的网络模型这个趋势发展。当然要训练这种规模的网络模型,还需要很强大的计算能力支撑,因此我们自研了多机GPU训练平台,并且结合腾讯云的GPU计算资源,这些都为技术的提升提供了基础架构保证。
技术发展完成了0到1的发展,而1到N的推动则需要数据的驱动。以我们为例很多数据的搜集包括静态生活照、安防视频照、跨年龄照、明星照已经超过了千万的数据级别,不同的场景都很好整合在这块,形成了优图的东方人脸大数据库,这就是我们技术和数据的优势联合所达到的效果。
最后,我来解释一下为什么叫做祖母模型,实际上是致敬了神经学上“祖母细胞”的假说:祖母细胞是1950年代的生物学家杰罗姆提出来的假说,是指在人脑中存在一个或一组神经细胞,当某些特定的概念如你的祖母头像出现时,这个或这组细胞就会激活,这个原理其实和现在的深度学习原理很接近,因此把我们的模型命名为“祖母模型”。
技术得到了本质提升之后,接着我们和福建公安一起推出“牵挂你”寻人平台。奇迹在2017年3月24日出现,福建省公安厅从前线发来捷报:清流县走失的小男孩通过寻人平台找到了。3月23日晚19时许,派出所两位民警在巡逻时,看见一名小男孩有点不正常,顺手为孩子拍了一张照片上传到牵挂你走失平台。当民警把孩子照片上传的刹那间,牵挂你平台就发出了提示,这个孩子的照片与某个村民报失的侄子登记照片相似度高达86%,民警根据信息找到那位村民并确认该名小孩正是登记的走失儿童。根据最新的消息,迄今福建省范围内共找回270多个成功的案例,这是一个多么令人振奋的消息。
继福建牵挂你平台推出之后,在2017年6月,QQ全城助力结合人脸识别发布了人脸寻亲功能。6月中旬,全城助力通过比对两张跨越10年的照片,在河南平顶山某救助站寻回了一位走失三年的安徽阜阳男孩。当然故事还在继续,正是因为祖母模型的研发,人脸验证准确率上0.15%的推进,意味着在上百万、千万检索库有极大的提升,更重要是也许就意味着于可以帮助警方多抓逃犯,多找更多走失人员。正是这0.15%,让微不足道、冷冰冰的数字,富有了鲜活的生命,产生了巨大价值。
于此同时,我们将海量人脸检索技术运用到城市安防中,打造优图天眼系统,助力智慧城市建设。优图天眼系统融合了跨年龄识别、亿级人脸检索能力和复杂场景人脸识别的亮点。结合城市安防的特点,天眼系统对人脸还进行了结构化的分析,便于警方通过人脸特征迅速检索和事后取证。自2016年底苏州市公安局与腾讯优图实验室在天眼系统上展开合作。经过数月的测试,在2017年5月天眼系统正式开始为苏州公安警务人员提供服务。而令人振奋的是,在上线当月即抓捕一名盗窃案逃犯!
近期有很多关于人工智能会不会毁灭人类的讨论。其实技术都具有两面性,比如说在上世纪研发出来核能技术,它既可以发生战争,同时也可以解决能源问题。需要明确这其中责任不在于技术的本身,而是使用技术的人。人类真正优越于人工智能的,不仅仅是更强大在逻辑推理能力和创造力,更重要的是他有一个神圣的道德感和责任感,正是因为这种道德感和责任感,把人类引向一个又一个新的纪元。而这也正是优图团队所一直恪守原则:坚持前沿技术的应用落地,做有社会温度的人工智能。
谢谢大家。