热云数据CEO白冬立:用户画像如何应用于商业
来源:数据猿 作者:白冬立
11月24日,数据猿联合星河互联主办了《数据猿巅峰思享会——用户画像的100种用法》活动。本次活动,邀请了来自互联网及行业的多位领军企业代表,就用户画像的真实案例做了分享,探讨了在下,各行各业该如何利用用户画像、提升用户转化率等系列问题。
与会嘉宾:
GrowingIO联合创始人——吴继业
热云数据CEO——白冬立
百分点集团研发总监——苏海波
众盟ZMENG高级技术总监——王鹏
找萝卜创始人&CEO——付浩
资深互联网专家、酷6网创始人、迅雷看看前CEO——郝志中
以下内容为“热云数据CEO白冬立”分享,并由数据猿编辑整理发布:
关注数据猿微信公众号(datayuancn)并回复关键词“白冬立”即可获取演讲PPT
我是来自热云数据的白冬立,今天演讲的主题是“用户画像在整个商业化中的应用”。
先简单介绍下热云数据,我们是一家专注于移动互联网,为移动互联网相关公司提供数据分析产品和技术的公司。我在创业之前服务于一家硅谷公司,以数据驱动,游戏行业为主,其中很多的方法论跟Linekedin都十分相似,所以说我也是一名热衷于行业的创业者。
我们公司至今已经成立满两年了,在这两年的时间里,我们通过自身研发的产品,累计覆盖了一些用户,并且已经达到了比较大的量级,同时我们已经累计覆盖了超过10个亿的移动终端的设备数据,这个移动终端其实就是手机、平板、ipad。数据类型方面,涵盖了游戏、金融、电商、社交、直播,以及工具类在内众多APP相关的行为数据。
今天的主题是围绕DSP和数据的,说到DSP,大家已经非常熟悉了。在PC互联网时代,就出现了很多DSP产品,并且被应用到了营销、电商的推荐等领域。不过随着近两年移动互联网的兴起, DSP才真正在商业化应用领域发挥了它应有的价值。
之前评估数据价值是非常难的,我们面对的客户种类大不相同,可能在汽车领域,这条数据值10块钱,但是到了快消领域,报价可能就只有一毛钱。所以,数据在不同用户、不同商业应用场景下,它的价值定义也不一样。这也是DSP在实际应用跟商业化过程中所面临的主要问题之一。
其次,信息孤岛问题。现在市场上有很多移动APP,据权威机构的数据统计,目前国内移动互联网领域APP数量已超过60万款。对整个移动互联网APP行业来讲,这60万个APP,每一家的数据都是一个信息孤岛。而从数据管理平台角度来讲,我们希望我们所用到的数据,能够真正反馈出用户的特征,不管是从深度也好,广度也好,它能够是一个完整的用户画像。因此信息孤岛的出现也导致DSP产品在商业化应用中存在着许多问题。
下面分享一些DSP产品相关的数据,到目前为止,我们累计覆盖了超过10亿个移动互联网APP用户。据了解,目前市场上安卓用户跟IOS用户所占比例大概是7:3,而我们覆盖的范围则限于使用安卓手机的用户。其中,DSP用户画像显示,有超过60%的用户都是男性,女性用户占33.4%。用户以年轻人为主,23岁到30岁之间的用户量非常大,因此我们在研究移动APP用户的时候,基本上都是在研究年轻人的行为习惯。我们特别关心,用户每天早上一起床,第一个打开的APP是什么,而晚上睡觉之前,他用的最后一个APP又是什么,这是我们在用户数据研究过程中的一条核心时间线。
我列了一下用户的地区分布数据,包括沿海城市和一线城市,这些城市也是我们所覆盖的移动用户核心的地方。我们将所覆盖的用户根据一系列的动作,打上适当的标签,之后把这些用户进行人群划分。在这过程当中,我们发现游戏爱好者所占的比例是很大,其次是都市白领。如何判断哪些人是都市白领呢?我们将目标大致锁定在经常打的,经常用美团点外卖,用猫眼看电影等等的这些人群。还有包括网购、商旅、股民,金融领域的用户,这些用户基本上是我们现在所覆盖的移动互联网用户的核心人群,我们所说的针对商业化应用领域的研究,也是围绕这些用户人群展开的。
数据来源
我们是一家第三方的数据公司,数据都是来自于曾经所服务的客户。细分下来,主要包括以下几个方面:
第一是移动APP用户数据。我们提供服务给移动APP开发者或者公司,让他们使用我们的产品,并把一些数据放到我们的SaaS平台上面。具体内容一会儿我会简单介绍一下。
第二是移动游戏。目前已经有超过一万家移动公司在使用我们的数据分析产品,所以说移动游戏也是我们收集用户数据主要的来源之一。
第三个来自于移动广告监测平台。
第四是手机厂商。我们在商业化应用过程当中,有一个很重要的合作伙伴,就是国内的移动手机厂商,包括联想、VIVO、酷派等都与我们存在合作关系。
我们主要的数据都是来自于这四个大方面。当然也有一些其他的数据来源,包括我们与百分点也在数据方面达成了合作关系。
刚才我说的所有数据都是通过我们自己的SDK来收集的,主要包括:广告监测产品平台、游戏数据分析平台、APP数据分析平台。从整个数据的流向来说,我们通过产品服务于客户,再将客户的数据收集到热云SaaS平台上,然后我们会把这些数据进行分析、整理加工,最后形成移动DSP的产品。
数据组成
从数据组成的角度来说,我们收集的数据主要分以下几个方面:
第一,通过移动广告效果监测的产品,能够收集到你在今日头条、优酷、百度等平台上点击了某一个广告之后的广告点击数据。
第二,我们会去帮助客户收集用户的地理位置信息。
第三,设备属性数据。
说到用户画像,还要包括跟人口学相关的属性,因为我们不是电信运营商,也不是银行,因此没有办法得到用户的手机号、身份证等信息。但是性别和年龄不同,我们可以通过一些技术跟数据分析的方法,利用预测的算法就可以实现了。
数据分类
首先是IAP的数据。应用类的用户行为付费数据可能跟其他的一些公司,在数据价值体现上有很大的区别。一个人用一台手机设备,不管你用什么样的APP,或者你玩什么类型的游戏,你在当中付费了、花了多少钱,这些数据我们都有,甚至包括你的应用留存、安装、应用使用数据。
对于很多应用DSP产品的客户而言,往往不同种类的客户所关注的数据维度也不一样。之前有一家做移动广告交换网络的公司,他们不在乎你用了什么应用,因为他们很大一部分客户都是来自于品牌广告。比如麦当劳要推出一个新的薯条,用户的需求在于,我只要第二天能够把这个薯条卖给一线城市的大学生就可以了,不管你是什么数据。
最后一块是用户爱好的标签、游戏的偏好、APP等。如果在座有效果类的广告投放,或者效果类广告主的话,你们可能比较关心这部分数据。前段时间有个卖蔬菜的APP,他们找到我们,说不管你的用户是男是女,不管你花不花钱,我只关心用户使用手机,或者APP的时候,是不是每天都会用到一些O2O的产品。就像我刚刚提到的,你是不是天天用美团叫外卖,这些其实都是来自于不同的广告主的需求。
回顾一下我们整个数据DSP的模型走向,从数据的来源,到把数据整合完之后,我们会去做用户画像,画像的维度包括刚才说的人口学属性、长期行为标签和一些短期的、意向性的标签。比如我们有一些电商客户,他浏览了什么商品,或者把什么东西放到购物车了,但是可能没结算,之后他又去别的地方浏览了,这就是意向性的行为。或者他经常用一些背单词的APP,那就意昧着他有应用学习方面的需求,这些其实都是短期或者意向性的行为标签。
另外,一个用户在衣食住行等方面的付费能力。可能在座的,100人当中只有20个人是付费用户。有了这些用户画像数据之后,就有更多的客户看到这个数据,他们觉得有价值,就会愿意去做一些尝试。目前我们也跟一些合作伙伴在游戏、金融、电商等这几个领域进行了一些数据上的尝试。
这里简单列了一下,我们整个DSP产品在系统设计,或者技术实现层面是如何去做的?
首先,我们会通过很多SaaS的产品,包括从合作伙伴那里拿到的数据,然后把数据以日志的形式收集进来,放到分布式的数据仓库里面。
其次,专门做数据处理、数据分析的工程师们每天要做的事情,就是如何能够在这么多的数据当中把有价值的数据挖掘出来。我们所拿到的数据非常非常多,包括不同行业、不同种类APP的行为数据,所以在分析和挖掘的过程中,会面临很多困难。比方在模型计算过程中,我们遇到的第一个问题就是人口学属性模型,我们怎么能够通过大家每天用APP的行为,判断出你是一个男的,还是女的?这看似很简单,但是我们却为此耗费了很多时间和精力。
我们曾经跟一家银行合作,他们的用户数据肯定是准确的,但当我们将数据反馈回去的时候,却发现我们的准确率并不高。后来我们也做了非常多的努力,包括对样本库进行更深入的分析,以及算法层面的改进,我们还用到了SVM等等算法,来支撑我们的模型计算,从而给客户输出相对更精准的数据。所谓相对精准是什么概念呢?假设你的数据准确率是51%,也就是说只有一半的数据是准确的,那么这个DSP数据在营销应用这块来说是完全没有价值的,准确率一定是要超过80%以上,才有可能产生价值。
下面介绍一下我们的系统,包括一键查询、实时推荐、实时查询类的引擎。这里面有一个实时查询类引擎,看起来是一个很简单的模块,但其实还是蛮复杂的。在DSP产品需求方面,有一个核心的诉求,就是不管你数据在什么地方放着,我去取的时候,返回的速度一定要非常快。在这过程当中,整个请求完成时间不允许超过10毫秒,如果超过10毫秒对方就放弃掉了,即便是你有这个数据,用户也没有办法用,因为你没有及时告诉我这个用户是什么用户。虽然说有数据,但是把它真正用到商业化环境当中,每一个系统所面临的技术环节挑战也不太一样。
简单介绍一下我们给用户做画像的主要环节:
第一,我们会把整个苹果应用商店上面超过50万款APP的数据全部抓取下来,同时在国内的安卓市场,我们也会抓大概超过十个应用市场的数据。为什么要去抓这些应用商店的数据呢?主要原因是我们要通过抓取APP这些分类,做一个最基本的用户人群的划分。比方说我们通过抓取应用商店里的分类,就能判断这个用户使用的APP是什么类型,如果它是个休闲类的游戏,比如说三消,我们就能了解到这个用户是一个轻度游戏用户,抓取这些东西的作用,其实就是简化我们的模型计算团队的工作。
第二,我们会通过APP的安装、使用的重合度来判断这个用户的重要性。比如在座各位肯定每个人都会从网上买东西,如果你早上起来第一件事就是逛淘宝,晚上睡觉的时候也要逛一下唯品会,那么你就是重度用户。使用多款APP,花很多精力在网购上,我们就认为你在这个领域是很重要的核心用户。整体的逻辑大概就是这样,不会因为你可能一个月打开一次大姨吗,那我就说你是女性用户,这是不准确的。
第三,我们要找到最主要的用户。10亿个用户,说出来好像很庞大,但是这10亿用户当中,有多少人的数据不是垃圾数据呢?其实所占比例并不高。我们通过RFM模型,就找到了这10亿用户当中,谁才是真正有价值的用户。可能很多人都了解RFM模型,我们最早做RFM模型,是用于游戏开发的。
假设我们发现你最近三个月,基本上每周都花钱,而且金额巨大,那么这个时候我就认为你是一个非常非常有价值的用户,我们会去研究你把钱都花在哪里了,是花在淘宝购物上?还是花在其他的一些游戏上?或者是花在了APP当中?我们就因此判断出你在那个领域是一个非常有价值的用户。这是我们在用户画像过程当中一些基本的,大家都能理解的环节,就是给用户分类,找到最主要的用户和最重要的用户。
简单跟大家介绍一下我们在用户画像商业化领域当中的应用,目前我认为无论是用户画像也好,用户标签也好,或者数据也好,在商业化领域中有三个方面是非常成熟的:
第一,服务营销。我们不是一家卖身份证信息的公司,我们在服务营销这块是可以用的;
第二,很多做用户画像、做数据的公司都在做的,就是服务征信;
第三,针对不同的用户,或者用户行为的历史数据做个性化推荐,比方说新闻这块做的最好的就是今日头条;电商这块,我感觉京东、淘宝在这方面都做的非常不错。
我们也在以下几个领域做了一些尝试,包括为游戏行业提供精准的用户,或者人群定向的应用。最近,一个公司在用我们的数据去推广一款ARPG产品。另外,我们会帮助金融公司做一些精准营销的案例;在电商领域,我们也在学习,思考我们的数据能不能帮着这些电商公司,或者电商APP来做精准的推荐。
提问:用户画像怎么服务于营销?
白冬立:现在我们的数据被大量客户应用在营销领域,有一家公司,他们的客户包括LV、欧莱雅这些化妆品品牌,他们的数据需求是什么呢?目前,他们已经接入了国内超过40家视频网站和视频媒体,比方说腾讯新闻、搜狐视频,这些视频网站在请求公司系统的时候,他并不知道用户是男是女,就没有办法把女性化妆品的广告展示给用户。我们与他们达成合作之后,就利用数据帮助他判断用户的基本信息,告诉RTB说我认为这个人是女的。
我刚才说服务效果类的广告案例,就得提到这样一个合作伙伴,他们的客户中包括很多游戏客户。游戏客户中又分为轻度游戏、中度游戏和重度游戏,这些游戏用户是不买品牌广告的,不是说只要把这个广告推向女性用户就可以了,他要把广告推向每周都玩游戏,在玩游戏过程当中,至少要玩15分钟以上的用户,最好这个用户还花钱。我们公司要做的事情,就是在视频广告播出之前,告诉他这个用户是不是刚才我说的这个用户,如果我说是,那么他就可以投广告了。
这里面其实存在一个核心问题,就是我们的数据的覆盖量有多大?你把用户圈的越小,你能够做到的用户群体就越小,目前他们能够覆盖到的用户数量是两个亿,我们并不能完全满足他的需求,但是我可以满足他一部分的需求,我们能够帮他提升的,就是数据那部分,而没有数据的那部分,我们覆盖不到,所以帮不了忙。
提问:在用户画像过程中,消费金额是怎么得出来的?
白冬立:我们有几个产品,用户在用我们的产品之前,首先要去加我们的SDK,这个SDK收集到的数据包括:用户点击广告的相关数据,以及从某一个应用市场下载APP开始,到安装、激活、付费、留存等一系列的数据,这些数据就会报送给我们。