2016年10月29日,由网易科技创办的开物沙龙主题活动在浙江大学举行,主题为“AI将引发生活大爆炸?”,线性资本创始人王淮从投资人的角度发表了人工智能领域投资泡沫的演讲。
【王淮现场演讲实录】
谢谢大家,我从投资人的角度谈谈我们投一些AI项目之后的感受,有一些经验,还有一些是教训。
以投资人的身份在跟大家分享之前,我想加一句,其实我原来是做技术的。
除了刚才提到的做过很多前端、后端的事情之外,我最后两年做的都是人工智能。那个时候不敢叫人工智能,因为那个年代说人工智能,大家一定觉得你在忽悠,我们那时候叫数据挖掘,最多叫机器学习。
人工智能这个词应该是过去两年才真正的从零变成老鼠过街人人喊打的状态,以前大家是不怎么敢提的。像我们以前读书的时候,我们翻到人工智能那章的时候,老师说这个东西不重要,过吧,都是属于这种状态。
我最后负责的是大数据反欺诈,我不知道有多少人是创业者?在杭州我们投过一家公司做得非常不错,做大数据反欺诈的公司。那家公司的创始人原来是阿里巴巴负责风控的工程总监,我以前干的事跟他干的基本一模一样,我们也是他天使轮的投资人。进入分享经验和教训之前,可能先讲讲人工智能整个流程当中的一些必要步骤,这可能会对于我待会分享的东西有比较清晰的结构。
简单的分成这三大块:
第一块是数据源。
第二块是当中算法的处理,所谓的人工智能处理的方法。
第三块是应用,最后处理完东西要发生作用才行的。
数据这块典型的三个大的特征是,一个规模要大,小孩子你只要给他一个苹果的照片,再让它看苹果问题不大,但是机器不行。结构化数据,尤其在深度学习出现之前,可能更多是像做反欺诈的时候,很多东西1是1,2是2,都是结构化的数据。第三是标注好的,什么是好人,什么是坏人,他是什么特征,这个都要标注好,深度学习理论就是机器识图,这是过去两、三年产生成熟的技术。人的人脸在哪里,苹果在哪里,你要标注好。
第二块方法论,典型的这两类属于机器学习。原来统计的学习方法,更多的可能叫回归算法、决策树,我们以前大部分是这套。现在比较流行的深度学习是过去两三年才真正成熟进入到主流的视野当中,这些做人脸的都是在过去两三年起来的,以前都没有他们的生意可做,大部分都是在学校科研角度。还有一个是叫Buzz规则,深度学习之前那是规则系统,更土了。
第三个很重要的是我们投资人关注的应用场景,搞了一堆数据,搞了一堆处理,完了之后不能解决商业实质解决的问题。要么比别人的商业决策更快,要么让决策质量更高。如果做不到这个,这个东西没人愿意买单,你没有办法依赖你刚才在数据处理技术上面建立的优势去实现我们称之为产品到商品的转变过程,如果这点没实现的话,这家公司是不可投的,再牛也没用。
从数据这个角度,我分享一点经验。
该做什么?
我们这里面有一个比较坚持的看法,一定要有一个原始数据积累的强策略,这个什么意思呢?大部分做人工智能的公司都存在这两个大的问题:数据不是你的,应用场景不是你的。你强的是有这种原来所积累的处理能力,那些算法能力,调优能力。数据不是你的就意味着你是无源之水,很多事情干不了,业务不属于你的,付钱这一段,这个时间决策点是别人的,你要求着人家,像绝大多数的公司起点都是很困难的。
如果没有特殊的方法,有两种我们看到典型的方法:一种你有历史的数据积累,像我们投的中科院计算所专注在人脸识别19年了。我们把整个实验室商业化了,这个合作应该是中科院计算所50年来第一次跟商业化的VC合作。他们历史上跟华为还有跟政府,咱们出入境的时候人脸都要扫一圈的,都是上一代的技术,这是有历史的数据积累。
另外你技术很强,别人愿意用你,同盾就是这样的,是阿里巴巴原来负责风控的工程总监,出来之后大家觉得干这个事情你是最好、最牛的,我愿意试你,而且最开始走的路径找的是电商,然后再找的是互联网金融的,基本上中国的所有的P2P、在线金融的公司都是它的客户。再后面走的银行政府,你看它的一步一步是越来越困难的,因为你越后面的人,他越关注的是你之前有什么客户。我不要做吃螃蟹的人。所以你要通过这样强能力的输出,一步一步的获得这些初始用户,再一步一步拓展出去,到今天他们有五千家,我们投他的时候就几家客户。
不该做什么?
我想了半天觉得这家公司这群人他没有办法形成大量的高质量的数据,这里面有几个关健词,我们认为在普遍的数据源当中有一个数据孤岛效应,什么意思呢?
首先提到一点很多人认为数据在BAT,这是极大的误会。我做一个不恰当的比方,我们抬头看天空的时候,晚上看到某一个角度只有那几颗很亮的星星,如果有最好的望远镜看上去,后面有几百亿恒星,大家看到很多数据在BAT,但是中国是属于几百万到几千万用户群体的,各类APP公司有这些的数据,但是不一定有处理能力。
还有一个很典型的,他们有很多用户数据的重叠,只不过你并不知道,因为你没有身份识别数据。而且你如果能够把这些数据结合起来,是有机会打破数据孤岛效应,实现我们认为的数据清洗加融合。还有一个标注,融合完之后A公司跟B公司看到的是同一个,你在A公司看到30个特征,但是Y公司看到的是另外25种特征,凑到一起,重叠的渠道,你会看到40个特征,你会比任何一家公司的数据价值高。标注什么意思呢?让你知道他是好人、坏人,你这边知道是坏人,另外一边不知道,你融合在一起,可以把看到的东西提供出来。当然上面有算法,通过这些方式你提高了数据的质量。你如果想了半天想不出来,有办法打破数据孤岛效应。如果没有办法用他研究的数据通过打破孤岛效应之后提高数据的质量的话,那这些公司也是不可用的。
在算法层面,我们有比较强烈的看法。我们其实并不关心深度不深度,我们只关心有用的算法。所谓有用的算法就是提高决策质量,提高决策速度。在商业上的点一定要够细,细到可以用一、两个很简单的指标去衡量。像同盾干的就是帮银行抓住坏人的准确度,当然银行有自己的指标,叫KQ什么之类的,有点忘掉了,它有严格的定义,你的方法能把这个提高就是好的算法。像我们投的一家,是帮银行提高贷后风控,应不应该给你发放贷款,应该以什么样的利率这样的一些问题。银行有它的一套系统,如果能够帮它以更低的成本把贷款发出去,那你就是一个好的算法。
人工智能这几年很火,人工智能不等同于深度学习,但是的确在深度学习这个事流行之前,人工智能这个词是不流行的。
在算法这边不应该做什么呢?不应该为了智能而智能。
这块有两个领域是我们做投资的时候看到的,很多人忽悠这个概念,其实是扯淡为主,基本上不是真正的智能。第一个叫做智能设计,很多是把设计师手里的规则自动化,沙发对面放一个电视,卧室也是,床头柜这些无非是有什么元素可以选的,把它搭配起来,是规则驱动的。因为我们在这里面投过一家非常成功的公司,它有这个概念,我为了准备PPT,我在其它地方讲过,我还说你要这个智能到什么程度,他说主要是用词问题,我最早的时候提到的规则系统并非是真正的智能设计,没有什么美感、设计感的。
智能投顾,大部分是原来的主题基金换了一个脸,跟真正的理解你这个人的投资需求跟理解市场上的投资机会整合起来提供一个适合你的投资方案。这种在美国做得非常成熟,各种原因,有些不是技术的原因,管控的原因,并非一个全局优化的方案,所以我们认为不能称之为智能投顾。
应用我也不展开,我们投的东西一定要有潜在的应用场景,有一个紧密的结合。因为人工智能领域有个特点,它跟学术关联性比较高。所以我们看待这个问题的时候典型的是这么一个面,科研出发,然后到技术是一步,技术到产品是另外一步,然后产品只有有机会变成商品,而不是我们投的已经商品化,有机会变成商品,你要卖得出去而且有一定的量,这才是真正有机会成功的。我们投的地平线机器人,这是很著名的一家公司,也是典型的原来想从泛的角度入手,后来还是落实到非常实际的应用场景,从商品角度怎么形成一个可靠的、可理解的应用解决,形成一个有很多人愿意买的商品。
最后一点是不该做什么,不投数据商业模式牵强的。这里提几个原来大家看To C这块的理念不一样的一些投资逻辑。
第一个对很多数据公司的建议是,你提供数据这种卖不了太多钱,你要提供别人基于你这个平台能够做什么。
第二个我就不重复了,更好的决策,更快的决策,解决实际问题。
第三个是一定要羊毛出在羊身上,不像我们To C的时候说羊毛出在猪身上,让狗买单,这个事情在To B人工智能行不通。大多数人会走到To B的业务模式,To C成功的极少。今日头条算半个。销售团队的建设,这个也是很多学者型的创业的人很难越过的一个创业时候要成功的必要条件,是一个鸿沟。
话说了那么多,我们在国内的早期基金当中是非常多的,也是做的比较早的。虽然现在我们认为这里面泡沫很大,但是智能相关的投资才刚刚开始,这个领域至少还有5年的时间可以有很热闹的投资跟创业的机会存在。这是我今天的分享,感谢大家。