2017年4月21日,由中国人工智能学会和亿欧主办的以“大数据、AI成为传统产业的新动力”为主题的“新科技·划时代”峰会在深圳市举行。本次峰会旨在集合学会、企业、政府之力,将AI和产业融合,提升企业效率和带动产业升级。
出席此次峰会的嘉宾包括将门CEO高欣欣、丰元创投李强、奇点汽车战略合作总监高华、亿欧网副总裁由天宇、智童时刻创始人郭长琛等。
智童时刻创始人郭长琛就“机器人创业的风口已经来了坑也跟着来了”发表了演讲。
【郭长琛现场演讲实录】
大家好,作为人工智能本专业毕业的学生,站在这里我觉得非常的欣慰。我是2003年从东京大学人工智能系毕业的,那时候人工智能并没有火,大部分的师兄、师弟都是去研究所,去大公司的基本上很少听说有人在做创业。
今天来之前还特意看了一下,我们在中国现在以机器人命名的公司将近5千多家,听说深圳就有接近2千多家,这么多创业公司涌进来了说明一个问题,现在机器人创业的风口已经来了。有句话说“风来了,必然坑也跟着来了”。今天就分享一下我这几年来做机器人的经验或者是踩过的坑,如何填平了这些坑,给大家做一个汇报。
只要是做机器人的,基本上都会碰到这四个需要考虑的问题:一个是硬件,二是体验,三是内容,四是场景。
因为我自己是做人工智能软件出身的,所以在硬件方面,创立公司的时候就特别有敬畏心。2015年成立,在2016年才正式发布产品,今年春节之后才正式进入大批量的量产,所以硬件对于一个机器人来说其实是门槛相当高的。
这组数据,我只能拿自己的机器人做比较,和手机的对比,对手机而言,它的组装间基本上是30个,而keeko是200个,PCB板手机是1到3个,keeko是15个,对于活动连接线等等手机基本上不存在,对于机器人来说,不仅要看到的是它的器件的增加,更重要是手机的市场庞大,所以大量的硬件公司有标准件,而机器人的都是非标件,所以大家会碰到很多供应链上的问题。
但是对于硬件而言这个是远远不够的,因为如果要做一款儿童的教育机器人,其实要考虑的东西远远大于刚才所提到的事情。
比如说到底要多亮的屏幕才是足够的?身高要多少?音量要多大?要不要有手?这些都是要深度思考和市场调研之后才能得出的结论。
可能很多家长会抱怨,现在的电子产品,不论是手机还是平板都是视力的杀手。因为这个原因导致很多家长对电子产品的使用是有一定排斥的,对于视力的影响大部分是集中在蓝光,第二个是长期注视带来的视觉疲劳。经过调研之后是这么处理的,第一个是屏幕上做了滤光处理。第二个是运动技能,一个是让孩子觉得他很灵活,另外是只要机器人经常在运动,孩子的视线就不会一直停在屏幕上,对视力保护的帮助是很大的。
多元操作,对于一个带屏幕的操作来说,不可避免很多操作是要在屏幕上完成的,我们会把对屏幕的操作降到最低。实物编程,机器人出去的时候,都包含了机器人的实物编程卡片,孩子通过编程卡片上完成编程逻辑的时候,最后才会由机器人读入,并且执行。就既可以让孩子在编程的过程完全得比较顺畅,又会让他对机器人的屏幕的操作时间变得比较短。
安全性的表彰。
机器人到底具备哪些安全方面的考虑?
一个是听力保护:限制在75分贝以内。但是我们会在一些机构或者是活动现场使用的时候,他的声音很大,这个时候就需要支持蓝牙,通过蓝牙输出。
二是伤害规避,机器人完全是以圆弧作为基础的设计。要运动就有缝隙,我们是严格控制缝隙是小于3毫米的,任何的手指是不可能伸进去的,又可以灵活运动。没有做手的原因也是为了避免手指被夹。
三是安全接触,很多孩子的玩具,如果喜欢就会亲,会啃,因此对外壳的除菌处理是很关键的,因此我们做到了食物级的除菌,减少73.1%的细菌附着。
四是舒适视色,关于高度,孩子是喜欢坐在地上的,所以平均是42到45之间是比较合适的高度,所以我们的产品是42.8,确保孩子基本上是平视,或者是稍微俯视,这个角度在心理学上的压力会比较小。
五是搬动安全,在脑袋方面专门做了金属的高强度的连接,确保无论怎么抓都不会断裂。
这些问题都是需要跟家长、孩子的测试、接触的过程中才能认识到的。
因为我们是一个非人形的机器人,但是又希望孩子觉得是一个机器人,要如何做到呢?我们做的是动作多元,情绪丰富。
动作左元是增加动作的灵活度,因为我们有各种各样的电机,每个电机都可以通过程序来控制里面的速度,通过他的角度,还可以做一些动作上的选择,拼出一个相对灵活的运动机制。
情绪丰富,内部大概有内置200多种表情,这个表情就可以反映到情绪上,不同课题的交互中,根据不同交互的结果,应该处在不同的情绪状态,而这个情绪状态对应到一种表情,对应一种动作,对应一种语音的速度和声调。这种综合起来,有表情,有语速语调形成了情绪的表达。
上面是分享了硬件方面的事情,接下来汇报体验方面的事情。
讲到体验就一定会讲针对什么样的人群,我们开放的一定是大脑,大脑对孩子的体验是非常不一样的,围绕着儿童的体验做了非常多的优化,今天专门讲一个语音方面的优化来做报告。
也许你有经验,如果你的孩子在4岁以下,他的发音基本上是处在奶声奶气的状态,而且发出的很多词是不准确的,我孩子经常会把叔叔说成“嘟嘟”,舅舅说成“痘痘”,而且孩子有一种状态,讲话的时候基本上是短单词,现在的人工识别做起来是比较难的,所以我们做了双重优化,基于前后对话背景的语意的变化。比如说机器人问孩子“妈妈和舅舅更喜欢哪个?如果孩子回答是“兜兜”,我们就必须翻译成“舅舅”,才可以保证这个对话是可以持续下去的。针对全舌音和短词汇是需要做双重的优化,才能达到对话的效应。
多音字在中国的汉语中是经常出现的,同样一句话里面字不一样,比如说“爷爷长着长胡子”。或者是国学课中的发音和现在的发音是不一样的,就意味着我们需要专门做多音字的优化和纠正,这个纠正还要根据不同的特征来进行优化。所以我们专门做了多音字的纠正来解决这个问题。
儿童不宜,如果对话里面出现了儿童不宜的词汇或者是对话,相信大部分的老师和家长是不会接受的,所以在过滤儿童不宜库上面有一定的关键字,除此之外,还需要对字库进行人工的审核,因为中文里面有非常多的多语意的表达。使这个字库显得更干净,也更符合儿童的对话习惯,如果很多对话太伤大脑,小孩子是不会喜欢的。
这只是对话方面所做的一些事情。
除此之外,我们还做了另外的优化。
第一个是定制识别,因为我们是做教育的,就必然离不开课程,在每一个课程里面是有主题的,比如说在某个课程主题里面我们讲的是动物,针对这几课,我们对于动物的识别,比如说狮子、猴子、熊猫就会提得很多,而汽车,冰箱就会降得很低。在某个主题下不同类别的识别,可以动态的调整他们的优先和分析的纬度,让某个主题单元的识别做得更好。
个性化学习代表了人工智能比较有代表性的功能,一个是可以让孩子教机器人,通过互教互的方式,可以比较快的知道孩子目前的水平,通过课程中每个孩子教会的能力,以及答题的水平来推算出他目前所处的难易度,所以个性化学习最重要的是让孩子觉得这个机器人是懂他的。
智能联想,6岁以下的孩子对抽象事物的理解是非常不充分的,比如说问他大象是什么样?如果你回答一整串大象的说词,孩子是不接受的。所以我们首先会调出一个大象的图片,围绕大象的图片再讲一下大象具体讲得怎么样。如果你说我还需要知道更多,他就可以关联到一个视频,甚至是关联到内部的大象的课程,只有通过这种方式,才能让孩子引导式的理解一个概念。
除此之外还优化了视觉,还优化了跳跃上的体验。
这也是一个比较大的坑,如果要做教育机器人是不可能离开内容的。现在的内容很多,无论是儿歌、故事还是绘本,每个领域都有非常多的内容,其实如果把这些内容直接搬到机器人上去,价值是非常小的,甚至体验会非常糟糕。如果在一个机器人的脸部播放一个视频或者是放一个APP或者是放一个游戏,它的体验不会比平板好,甚至比平板和手机的更差。而应该是结合机器人的语音、视觉、动作、深度学习,要全部的融合进去,他不是一个播放器,而是一个完整的体验,这种情况下就会发现大量的内容基本上都不适合放到机器人上。
所以说机器人的内容是稀缺。
做内容是非常费时费力的一件事情,如何解决这个问题?
第一个方案是打造内容迁移平台
把现有的绘本、音频、故事,视频,用后台的可视化的编程平台,把这个加上语音识别,视觉、程序,动作,变成一个可以由机器人来立体体现的课程,所以说在我们的课程上你很少感觉到是一个APP,绝大部分情况下都是一个整体的体现。通过后台可视化平台,最大作用是可以非常快的降低用户编辑课程的成本。对于合作方来说,完全不需要知道底下的人工智能技术,对他来说就像写一个PPT一样完成一个课程。
方案二:让用户自己创造内容
用户在创造内容的时候,他应该是变得更加的简单。一种是针对6岁以下的孩子提供了一个功能,叫做小小编程,6岁以下的孩子是否可以编程?可以的!台湾、大陆都做了测试,两三岁的孩子就可以编出一套不错的程序。小小编程提供了三种模式,一种是用自带的编程模块,在地下摆出要编程的模组,加上录音,由机器人执行。第二种是机器人内置的虚拟的卡片进行编程,第三种如果想把外面的实体再拿到你的程序里面,再放到机器里面。孩子对小小编程的喜爱程度是很高的。孩子不再是被动式的接受课程,而是学了课程之后通过编程的方式演绎出来。
针对家长提供了另外一套工具,在微信端,家长可以非常快速的定制课程。
方案三:分龄,个性化定制内容组合
0到6岁做课程是必然绕不开的课程,因为0到6岁孩子成长阶段非常快,所以一方面是采用了分龄的方式,让家长先预设一下孩子的年龄,接下来通过机器人跟孩子的交互完成他的个性化的定制,不同的孩子组合出来各种的模组是不一样的。
通过上面的三种方式就可以完成现在从平板、手机上面的内容到机器人内容的打造。
做好了硬件,也有了体验,有了课程,对儿童机器人来说还是不够的,任何一个产品必须有场景,没有场景的产品是很难生存的。所以我们内部经常重复一句话,我们是内容为王,场景是神,只有结合场景的应用才是真正的应用。
第一种是幼儿园和幼教机构,目前看起来在这两种场景下是非常受欢迎的。因为在幼儿园的早教机构里面会扮演几种角色,一种是一个辅助小老师的角色,因为有大几百个模块,老师可以调用很多的模块来进行课程的辅助。第二个可以用于活动。在收到的各种用户反馈上,基本上我们的机器人在幼儿园里面是非常受欢迎的。
第二种是商场和专卖店。起到的作用是引流和住客,在比较有品牌的零售店已经导入了这套系统,面向孩子的系统里面,当keeko导入的时候,我们做过基本的统计,平均使用时间大概在20分钟,这个时间点基本上他的家长在店里可以完成一次购买行为。接下来大家会在很多的shoppingmore里面看到我们的机器人。
最终的场景还是要回归到家庭,家庭才是我们主要的客户。我们会想探索解决两个问题,一个是现在的父母没有时间陪孩子,也不知道怎么陪孩子。我们提出的理论是2515,每天让机器人陪孩子25分钟,这25分钟父母是不需要介入的,他只需要在微信上打入25分析的时间,机器人就会在25分钟里面跟孩子互动,上课或者是玩。另外是家长,机器人,跟孩子玩15分钟,这15分钟可能是编一个小故事的程序,也可能是一起来背一首诗,也可能是一起完成一个智力游戏。所以说2515,让孩子一天有40分钟的时间跟机器人在一起完成他的课程,当然可以有更长的时间,但是2515是目前比较好的组合。
机器人是载体,教育才是目的。
因为我们是一个儿童机器人教育公司,对我们来说机器人是载体,无论是机器人还是人工智能的技术,归根到底都是为了教育的这个目的服务,为了让教育更加高效、快乐,我们也会一直升级软件,增加课程,尽力推出不同品类的机器人,最终是希望孩子跟机器人之间的学习是非常快乐的。
谢谢大家。