产品除了活跃的数据, 留存的数据也是至关重要的, 优化好了留存, 也就提升了活跃, 所以数据分析师天天会被产品问到的一个问题就是: 我们到底应该怎么去提升我们的留存, 非常烦, 你们有没有这样的感触?
互联网思维中的一条就是用户至上, 留住用户才有故事。
那么我们怎么通过数据去帮助产品去发现留存的关键行为呢, 去解决我们烦心的问题呢?
我们的分析目标: 影响留存的相关的关键行为有哪些?这些行为和留存哪一个相关性是最大的?这些关键行为和留存是否存在因果关系?
分析思路和方法:
- 首先是关键行为的提取, 这一步就是利用sql 从数据仓库中提取你想要的与留存相关的数据行为, 这一步是最麻烦也是最费时间的
2. 利用统计学的相关性的计算方法, 可以计算第一步计算的每一个行为与留存的相关性, 相关性的系数越大就代表这个行为跟留存是越相关的, 就代表它可能就越影响留存, 比如刷抖音的次数跟留存的相关系数是 0.6, 刷抖音的时长和留存的相关系数是0.8, 就可以说明刷抖音的时间
3. 然而数据分析中的相关关系不一定是因果关系, 比如很多人喜欢张杰跟他唱歌好听是相关的, 我们就不能一定说, 他唱歌好听是大家喜欢他的原因, 可能真正原因是他的颜值哈哈, 所以类似的, 我们的这些关键行为也不一定是决定留存的原因, 可能只是具有相关性, 所以我们就要去推断 a 是b 的原因, 利用的方法是granger test因果检验的方法。
4. 当我们已经判断了XX 行为就是留存的原因, 比如你一周刷抖音的时间是你下一周是否会留存的原因, 那么接下来就是去发现到底刷抖音多长时间是留存的magic number, 这个magic number 非常神奇, 就是比如你一周刷抖音288分钟, 你下周留存的概率会大大增加, 这个"一周* 刷 * 288分钟" 就是互联网中最经典的magic number.
抓住了magic number, 也就抓住了一个产品的留存灵魂。
拿某直播app 作为例子, 与留存的相关的行为可以分为 登录行为, 观看行为, 弹幕行为, 付费行为, 然后在每一个大的行为分类进行小的指标的刻画, 比如去描述登录的行为我们就可以用 30天登录天数, 7天登录天数, 还可以用比率型指标, 像最近30天的登录天数和过去30天的登录的天数的比值, 这个反应了用户活跃度的变化。
上一步已经提取完了所有跟留存相关的行为特征, 这一步就要进行计算留存和这些特征的相关性。
留存相关最大的四大因素:
•30天或者7天登录天数(cor: 0.66)
•30天观看品类个数(cor: 0.44)
•30天观看主播数 (cor: 0.37)
•30天日均观看时长(cor: 0.26)
因为我们只是找出了跟留存相关的行为特征, 但我们不知道这些行为特征是否是留存的原因, 所以就要通过granger test 因果推断的方法去验证这些行为特征是否是留存的原因。
原理:两个经济变量X、Y之间的格兰杰因果关系定义为:若在包含了变量X、Y的过去信息的条件下,对变量Y的预测效果要优于只单独由Y的过去信息对Y进行的预测效果,即变量X有助于解释变量Y的将来变化,则认为变量X是引致变量Y的格兰杰原因。
原假设和是否拒绝: X 和 Y 是不存在因果关系, 当经过格兰杰因果检验后计算出来的 p 值大于0.05 则接受原假设, 否则拒绝原假设
主要结论:
发现了影响留存了原因以后, 我们就要寻找这些行为是达到一个怎么样的值以后, 会大大影响留存的概率, 所以我们计算了30天登录天数, 7天登录天数, 月日均观看时长, 30天观看主播数, 30天观看品类数和留存的关系 下面是画出来的图.
拿30天登录天数作为例子, 横轴就是 30天内不同登录天数, 纵轴就是留存率, 当横轴为7的时候, 留存率趋于稳定, 这时候就达到较稳定的状态也被称作 aha moment.
我们可以发现几个神奇的magic number
月登录4天
周登录三天
月观看7个主播数
月观看4个品类数
月日均观看时长4分钟