menu

Junjielee Blog

在平凡中坚持前行,总会遇见不凡的自己

《数据驱动 从方法到实践》

作者是一个07年毕业浙大,开始在百度搜索新产品部工作,带领团队从零到一构建百度用户行为分析大数据平台,到2015年4月,从百度离职,创建 “神策数据(Sensors Data)”

书中主要介绍了 大数据的特点、做数据驱动的环节以及数据价值体现的两个方面:BI和AI,最后是一些时间案例。 在讲解的过程中,也陷入了不少案列用于理解

大数据的特点

大数据概念:大、全、细、时

  • 大:强调是宏观的 “大”,而非只是数据量的 “大”
  • 全:数据源的全面:包括前后端数据、日志数据、数据库数据等
  • 细:强调多维数据,数据的多个属性
  • 时:强调数据采集和分析实时性的价值

数据驱动的环节

环节包括:采集与埋点 -> 建模 -> 分析 -> 构建指标体系

按照数据的流向,把数据处理分为下面五个阶段:

数据接入 > 数据传输(实时/批量) > 数据建模/存储 > 数据统计/分析/挖掘 > 数据可视化/反馈

数据采集

采集的对象:

  1. 前端操作:Js,ios,android,按钮点击,下拉框选择...
  2. 后端日志:Nginx,UI,Server,浏览,检索,购买,支付...
  3. 业务数据:数据库,CRM,物流,进货,客服

埋点方式:

  1. 可视化 / 全埋点,也叫“无埋点” 按照定义的标准,通过界面配置,SDK嵌入等方式去手机数据。 优点:可视化、门槛低、友好。 缺点:只能采集到用户交互数据(不能自定义)、兼容性有限(不同客户端的时间定义)、前端数据采集的缺陷(不全面、时效差,无法保证可靠性...)

  2. 代码埋点 分为前端埋点后端埋点 前端埋点区别全埋点:对于每个关键行为,都需要调用SDK代码,将必要的事件名,字段信息传到后台服务器 相对全埋点,更适合做精细化分析,方便做后续的深度分析需求 后端埋点具有更高的数据可靠性

  3. 导入辅助工具 例如导入日志格式的数据

如何提升数据数据准确性

  1. 采集关键行为推荐后端埋点
  2. 进行事件设计和明确统计口径,保证统计数据的质量(例如如何定义活跃)
  3. 需要具有完善的元数据管理和埋点管理(检测导入功能)
  4. 通过多维分析能力快速定义异常

数据建模

多维数据模型、多维事件模型

多维事件模型分为:

  1. Event实体:描述一个用户在某个时间点、某个地方以某种方式完成某个具体事情(Who, When, Where, How, What)
  2. User实体:用户属性

数据分析法

  1. 行为事件分析:涉及事件、维度、指标(结论)三方面
  2. 漏斗分析:一套流程分析,科学反映用户的行为状态以及从起点到终点各阶段用户转化率的情况
  3. 留存分析:用来分析用户参与情况和活跃程度
  4. 分布分析:用户在特定指标下的频次、总额等的归类展现
  5. 点击分析:用高亮的形式,显示页面或页面组的不同元素的点击密度(包括点击次数、占比、点击的用户列表、按钮的当前和历史内容)
  6. 用户路径:用户在App或网站的访问行为路径
  7. 用户分群:通过用户的历史行为路径、行为特征、偏好等属性,划分用户群体(实现精准推送)
  8. 属性分析:根据用户自身属性对用户进行分类与统计分析

构建体系指标

  1. 第一关键指标法:选择业务中最重要的指标,然后从这个指标外延
  2. 海盗指标法:围绕用户生命周期中的五个重要环节:Acquisition(获取)、Activation(激活)、Retention(留存)、Revenue(营收)、Referral(引荐),简称AARRR

数据驱动两大价值

  1. 数据驱动产品和运营决策(BI)
  2. 数据驱动产品智能(AI)

BI

数据驱动运营监控

  1. 用户获取:渠道统计,渠道优化
  2. 激活:真正体验了产品核心功能才算激活。如何提升激活率:减少干扰、提升性能、增加引导、人工介入(用到分析方法:漏斗分析、用户分群)
  3. 留存:提升留存(精准消息推送、让用户体验产品价值Magic Number、挽回流失)
  4. 引荐:口碑,让用户主动推荐你的产品
  5. 营收

数据驱动产品改进和体验优化

数据驱动商业决策

AI

例子:计算热门榜单

数据平台需要具备对数据的灵活处理能力,包括:接收、清洗、存储、计算、查询等

挖掘用户行为数据价值的一系列智能应用:在线分析、个性化推荐、精准广告、反作弊、搜索优化、用户画像、文本挖掘 (P120)

用户智能分类

  1. 基于规则:通过运营人员一步步地筛选条件,找对最合适的用户
  2. 基于机器学习

机器学习算法分类:

有监督学习
             GLM                 |     Logistic      Random
          回归                    |                   Forests
    Linear   Grandient Machine   |           分类
                                 |              SVM
连续 -----------------------------|----------------------------- 离散
                                 |
           关联分析                |             聚类
                Apriori          |    SVD         K-means
                                 |
                              无监督学习

机器学习算法:回归算法、分类算法、聚类算法、关联分析、

机器学习处理流程:问题分析、数据清洗、特征工程、模型训练、模型验证

用户画像

  1. User Persona:用来描述需求、参与调研
  2. User Profile:多方面深入了解用户:是否反映受众的真实需求、时效性、覆盖度

标签体系建立:将用户划分为多个不同的分类(便于使用、有明显的区分度)

  1. 非结构化标签体系:彼此之间没有层级关系
  2. 结构化标签体系:有明确的层级关系

个性化推荐系统

各行业实践数据分析全过程

  1. 互联网金融
  2. 企业服务
  3. 零售行业
  4. 电子商务

推荐的书:《精益数据分析》