2017年01月13日,2017极客公园创新大会“GIF17”在北京·751D•Park 北京时尚设计广场召开。
大会共将进行三天,邀请了包括雷军、罗永浩、冯鑫、王小川,以及人工智能专家李飞飞,美国登月宇航员Buzz Aldrin等众多大佬,一起畅谈互联网下半场、人工智能风口上,如何实现产品力、探索力、影响力的变革。
大会上,友盟+CDO李丹枫以“数据是互联网下半场里产品人的突围之道”为主题发表了演讲。
以下是友盟+CDO李丹枫现场演讲(有删减):
在这一年期间,我们做了一些数据产品,所以我在这里会介绍一些关于做数据产品的经验。
我自己,实际上并不是一个产品人,我是一个数据科学家,在美国做了十几年的数据工作,前两年回到国内以后,有幸参与了一些数据产品的工作,想法的产生,产品开发,包括上线以后的效果的评估,所以今天,我从一个数据科学家的角度,跟大家讲一讲在人工智能和大数据的风口浪尖上,一个产品人,应该注意的几点问题,希望能对大家有所帮助。
第一,我们要看一下现在的大趋势。
大家听到比较多的词,是人口红利的逐渐消失。我们可以知道,中国互联网用户在2007年大概只有两亿左右,到2016年,已经迅速增长到七亿多,但增长率基本上直线下降的,那就说明了我们以后再用这种野蛮的方式去获取客户,可能就很难做出更大的成绩。
甚至在一些非常新兴的领域,其实竞争也非常激烈,比如现在的网络直播、共享单车,都是非常新兴的领域,但许多大公司、创业者、投资人也迅速加入这个战场,把本身一个蓝海迅速变成一个红海。在这种情况下,我们必须考虑作为一个产品经理去考虑,这个产品怎么样才能脱颖而出,怎么样才能让它发挥最大的价值。
所以现在,我们需要仔细探索产品,通过数据挖掘,去判断什么样的服务是我的核心用户需要的,我们从哪才能获得这些核心用户。
第二,这些核心用户我们怎样才能把它服务得更好?
那这些问题我们平时如果你就是拍着脑袋想是不行的,我们必须要借助这些数据分析,比如我的用户画像是怎么样的,我的核心用户和我的非核心用户有什么不同,我的核心用户会出现在哪里?这些都是要站在一个数据科学家的角度去考虑的。也就是说在互联网的下半场,以后我们要精耕细作,而不是野蛮生长啊。
我们其实在今年,有很大的开发者客户群体,也开始接触一些企业,包括一些大型传统企业,他们正在走进互联网;而我们在接触这些企业过程中,发现这些企业本身呢,对数据的认识也有一些变化。
我记得在2008年的时候,在美国,当时大数据刚刚兴起,就有很多企业说我要上大数据,那所谓上大数据是什么呢?那你给我建一数据库,然后我要看什么指标,我都可以去Hadoop模型里面去把它找出来看,但是至于说他们想做什么,他们也不清楚。
中国的企业,其实现在也在经历这样一个过程。而我在跟一些企业的谈话中发现,它们其实已经从单纯数据的堆积,到想从数据中得到一些什么。
现在体现在数据收集上,其实已经从原来简单数据变成一个比较精细的数据收集,就拿网站和移动统计来说,原来的网站数据统计,是基于pv和uv的,就是说一个页面谁看过,看了多少次,点击了多少次;而移动统计,就是网站的日货、月活这些简单的数据。
现在的数据统计产品,我们所谓的叫,基于事件统计,就是对你每一个产品里头每一个细节你都可以做数据的统计,然后进行报告分析或者进行留存,对运营进行很精确的指导。所以呢,从数据收集已经走到了统计报表。
那下一个目标是什么呢?就是我们所谓的人工智能。
我们可以把这种人工智能的应用叫做分析预测服务,它跟统计报表最大的不同,从我个人的判断来说,统计报表基本上是一个往后看的行为,我可以根据历史现象总结出几条规定,然后按照这个规律来指导我以后的运营工作。分析预测服务是往未来看,根据过去的这些数据,加上机器学习的能力,帮助我们判断未来能够发生什么。
其实这个事情我们在日常中已经接触了很多,比如说现在大家看到了广告,实际上就是机器去判断什么人会对这个广告感兴趣,那包括今年的双十一,天猫商城里面实际上每个人看见的页面都是不一样的,这就是千人千面,是一个推荐的产品。
统计报表和分析预测服务最大的不同,就是说统计报表是一个“面”的东西,而预测很多时候是精确到一个个“点”。
现在这个部分在所谓的“互联网下半场”变得尤其重要,因为每一个人现在都会有不同的需求,如果我感到你的产品真的是给我做了一个贴心的服务,那么肯定会出现产品的忠实用户。
作为一个产品人在做数据产品时候需要注意的几个问题
①目标
目标就是要我要去解决一个什么样的问题。
为什么我要把这个提出来呢?因为在大数据和人工智能的环境下,你的客户大多数是不知道要什么的,其实你可能也不是很清楚,这个需要和大家在一起去想,如果我有这个能力,也有这个数据,能够提供什么样的服务呢?
这个和过去的需求调研这个是完全不同的,但是我觉得这一点大数据和人工智能走到下一步是非常重要的。数据科学家和产品人都要发挥每个人的想象力,去想象我们真正能够解决客户的什么问题。
②数据
准确的说是你能获得什么数据,为什么这么说呢?
有的时候,我们会说“这个数据不错,我可以用它来做一个产品”,但是这个数据源是不是稳定,是不是由你控制的?这个问题很重要。如果你做完了以后,人家把数据源拿走了,你的产品就完全没办法运行了,所以说我们一定要考虑。
另外还要考虑,你的自有数据有什么样的独特性?或者说我的产品有什么自己的能力,把我和别人区分开,通过这个能力,对数据挖掘然后做出新的产品。所以对数据的考虑非常非常重要。
③评估
这个问题就是说,我做出一个产品,尤其是为供给侧提供的数据产品,我怎么去评估它?
在前段时间,我们会面试很多数据科学家,然后这个问题,他们其实也是回答不出来的,因为作为一个产品评估,他会有各个方面的考虑。
我后面还会再细致讨论,应该用什么指标对一个数据产品进行评估,但无论如何,我都认为评估是判断一个预测性数据产品成功与否的非常重要的一个问题。
④需求
需求也就是市场是否准备好了,或者市场需要什么。
这个就是实际上会联系到第一个,因为往往这些产品都是我们想出来的,我们创造出来的,我们觉得我们可以用这个产品给客户解决一个问题,那客户是不是需要它来解决这个问题呢?
往往我们是要做出一个比较符合市场的产品来,考虑过它的核心要素,然后我再用这个产品去找一些愿意跟我合作的客户去测试。在测试过程中,如果我们发现,你的问题能够得到解决,那我们这个产品是一个成功的项目;如果客户发现,这个产品目前太超前了,现在没有需要,或者说我们并不是非常需要它,那这个对我而言作为产品可能是一个失败的尝试。
但是对于我们创新来说,我认为这个产品或许也是一个成功的创新。如果说我有十个想法,有一两个想法能够变成产品,这个已经是非常高的成功率了,因为要做一个上数据产品,真正能解决用户痛点的数据产品,其实并不是那么容易的。
关于如何评估
我刚才谈到评估,这里有一个图,这个图我做了两个模型,一个模型 A、一个模型 B,我不解释这个图具体的含义,你可以看到 A 的曲线是在 B 上面的,那就说明从这个测试级来说,这个 A 的表现比 B 好。
但是又有两张图,这两张图说明什么,因为我一个数据的模型,实际上有很多参数,这个图是说 A 和 B 的两个模型,参数权重的分布。所谓权重的分布,比如说对于 A 模型,你发现参数 A 非常重要。这个参数 A 可能会对 A 模型的表现它可能贡献额有 30%。B 看起来权重分布基本上比较均匀,如果我把这个模型给你,如果在一个生产环境中,我问你,你是选 A 还是选 B?
这个也是要区分的,什么时候选 A,什么时候选 B。如果我做一个数据模型,这个数据模型是给第三方客户使用的,那我强烈 建议你选 B。虽然 A 表现好,但是它特别依赖于 A 的参数,如果跟 A 参数相关的信息,如果有变化的话,你 A 的模型会变化很大,这样你会失去控制。
所以你对客户是没法交代的,你天天灭火就行了,如果这个模型是在你严格监控的生产环境中,我觉得选 A 也未尝不可,因为如果有问题出现,你可以及时处理。尽管 A 和 B 看起来表现区别不大,但是如果你有上亿的客户,这一点区别能给你造成很大的不同。
所以大家在评估模型的话,一个是这个模型的表现,另外是这个模型的稳定性。作为产品人,我觉得这一点是非常重要的,因为数据科学家往往可能跟你说,你上 A 吧,它的表现好。但是你作为产品,你希望你的产品稳定性,你要选 B。
我们今年做了两件事情
第一是行为风控。
因为大家知道今天互联网金融特别火,几千个 P2P 公司。作为信贷公司,最重要的是你风控的能力。我们为什么想到风控这件事情?因为风控最重要的是数据,而我们是中国拥有行为数据量最大的一个公司。
我们就在想,我们的行为数据在风控中是不是会有用?我们的目标就是我们要做一个基于用户移动互联网行为的风控辅助平台。而这其中有两个关键词,一个是移动互联网行为,另外一个是辅助。
为什么说移动互联网行为,因为我们不是银行,我们不是借贷机构,我们也不是信用卡公司,我并不知道这个用户这些方面的数据,但是我们可以从他们那拿来数据做模型,但是如果他们把数据拿走,不给我,我这个模型就没有用了。
为什么说要辅助呢?毕竟我们的行为数据跟风控和信用不是一个强相关的,是一个弱相关的。我希望我的产品是一个辅助的作用,而不是你完全用我的产品做最后的决策。
我们的数据是什么呢?就是友盟+用户在移动互联网上的数据。
这个体量是什么呢?第一,我们的覆盖率非常高,我们全球采的数据,日活独立的设备是 14 亿,在中国你基本上可以认为百分之百覆盖了。
另外行为数据它是可以反映一个用户真实的行为的,因为在金融的数据上他可以作假,但是在行为数据上,他很难作假,他也不会有这个意识来作假。
评估是 KS 值,就是一个模型区分好和坏最大的能力,这个 KS 值越大 越好,业界这个 KS 值一般来说 到 0.4 左右就可以用了。用我们这个模型,我们已经可以达到 0.3 几了,这还是很出乎我们的预料的。
正因为有这样的结果,我们跟一些客户去谈,客户对这个模型的接受度还是很高的,我们现在有很多的合作伙伴,包括蚂蚁金服,跟我们做这件事情。
从这个产品的想法的产生,数据根据评估到需求,走了一个完整的链路,这算是一个比较成功的数据产品。
第二件事情,我们去预测游戏付费用户。
为什么要这么做?
因为游戏里付费用户比例非常少,大概是小于 5%,很多都是 1%、2%,如果我一个游戏的运营 者,我知道现在没有付费的用户,他容易转化成付费用户,我把我营销的经历都花在这上面。我们为什么来做这件事情呢?
我们有这么多数据,对于一个游戏来说,你一个新用户,在我们这里是一个老用户,我可以知道这个用户他跨 APP 的行为,我可以知道他在其它游戏里的行为,我可以知道他在新闻娱乐 APP 里的行为,这些行为可以帮助你更好的判断这个用户。
比如说我有一部分是付费用户,核心用户。我拿来这些核心用户,我找哪些用户和这些核心用户最相近,从多个纬度,就是这个用户跨 APP 的行为来找。我可以帮助游戏开发者和运营商更好的判断这些用户容易转化为付费用户。如果我能把你 1% 的付费用户变成 1.5%,那你的销售额增长了 50%,这个听起来是一个很好的想法。
评估是影响到一定用户的比例下,我检测到这些潜在付费用户的能力,比如说我影响到你 50% 的用户下,如果能检测到你 90% 的付费用户。这样的话,你做营销方案的时候,你可以针对这 50% 的人去做,剩下 50% 的钱,你可以省下来,这个理论上来说,是很有用的产品。但是我们拿这个产品真正 跟客户谈的时候,发现对于我们来说,对于友盟+来说,我们大部分游戏用户,他们是中小游戏用户。他们其实对自己的运营 控制力不强。他们开发完之后,把这个交给发行和运营 的商家他们去做。
但是对于他们来说,他们有很多游戏,所以他们的运营 是比较粗旷的。这个产品,现在市场并没有特别重视。
我最后再强调一下,对于一个数据产品经理比较重要的几点。
第一,你要明确你的目标。
第二,你要明确你的数据。
第三,要认清你怎么评估,这是你后面优化的依据。
最后你要看你的想法有没有真正的需求。
我今天的演讲就到这里,谢谢大家。