赵宏田 江丽萍 李宁 - 经济理财榜-商业
本书从方法、技术、业务、实践4个维度全面构建数据化运营的系统方法论,为数据化运营提供了接地气的、科学的指导。作者均在数据科学和数据化运营领域工作多年,本书从实践出发,以他们在实际工作中遇到的应用场景为切入点,通过“业务分析+代码实现”的方式接地气地讲解了如何才能做好数据化运营。其中,重点对搭建数据监控指标体系、数据分析、数据挖掘、ABtest、埋点策略、用户画像建模等常见数据运营方式做了详细的介绍。
书中对搭建数据监控指标体系、数据分析、数据挖掘、AB Test、埋点策略、用户画像建模等常见数据运营方式做了详细介绍。 c:119
基础篇讲解数据运营常见场景、运营方式与数据运营人员的工作职责。 c:14
第3章讲述如何结合业务搭建数据监控指标体系,从搭建模板到自动化数据报表,做好日报、周报、月报、专题分析报告等日常数据运营工作。 c:34
书中的源代码可以从Github网站(https://github.com/HunterChao/book)下载。 c:31
大数据领域涵盖了数据采集、数据存储、数据处理、数据挖掘、数据分析、数据呈现等一系列的技术手段 c:231
企业中数据从产生到应用依次需要经过数据源层、数据仓库层、数据建模层,最后到数据应用层,经过层层加工,从原始的海量数据经过各层的清洗、建模、挖掘之类的加工后逐渐支持到上游的应用环节。 c:249
❑数据分析挖掘:数据分析是数据运营的重点工作,其核心是业务方向的数据分析支持。主要包括:①对业务活动进行效果评估以及异常分析,如异常订单分析、异常流量分析,挖掘业务机会点,给予运营方建议及指导;②收集整理各业务部门的数据需求,搭建数据指标体系,定期向业务部门提交数据报表,包括日报、周报、月报等;③数据价值挖掘,如基于用户行为数据建立用户画像、建立RFM模型对客群进行聚类营销;④辅助管理层决策,对问题进行定位,输出可行性建议,辅助管理层进行决策。 c:305
需要掌握以下几方面的技能:Excel、SQL、Python、PPT以及业务理解能力。 c:146
(1)关联匹配类函数❑VLOOKUP(查找目标,查找范围,查找范围中包含返回值列号,精确匹配或模糊匹配):用于按行查找表或区域中的内容。❑INDEX(单元格区域,选择数组中某行,选择数组中某列[可选]):用于返回表格或区域中的值或值的引用。❑MATCH(待匹配的值,查找区域):用于在单元格区域中搜索某项,然后返回该项在单元格区域中的相对位置。❑OFFSET(单元格引用,左上角单元格引用的向上或向下行数,左上角单元格引用的从左到右的列数,需要返回的引用的行高,需要返回的引用的列宽):从给定引用中返回引用偏移量。 c:39
数据运营人员需要学习业务逻辑、业务背景和业务知识,这样提交的分析报告或做出的解决方案才能真正回答出业务方需要的答案。 c:110
数据驱动运营是个很泛的概念,与其说是数据驱动运营,不如说是让公司所有员工都养成看数据的意识,让任何一个岗位的任何一名员工都能用数据来管理自己的本职工作。 c:124
2.1.1 定义数据分析目标 c:28
常见的数据分析目标主要分三大类,即解决是什么、为什么、做什么的问题。解决是什么的问题,一般用描述性统计方法就可以解决;解决为什么的问题,则需要能用严谨的逻辑思维对具体的问题做数据分析,找出原因;解决做什么的问题,则需要通过具体的分析,提供可选的建议,最后交给运营或管理层来拍板选择相关可行方案。 c:373
一是我们在分析中一定要从数据的源头抓起,弄清楚数据的来源、统计口径及统计周期;二是我们要时刻保持和业务方及需求方的沟通,确保分析的思路和需求方在一条线上,确保分析的每一个细节都能真实反映业务;三是要明确分析师的定位,重在分析,而不是拍板事情的做法 c:269
从流量营销的角度来看,主要分析对象是访问用户,它们能帮助了解用户的量级、用户的偏好、用户的来源及去向,能帮助我们了解访问用户在流量中的行为及不同流量渠道之间的关系 c:165
①观察流量规律,区分不同流量的质量,关闭异常渠道,优先选择优质渠道,节约渠道推广成本;②根据用户路径分析,寻找产品存在问题的环节及改进的节点,及时迭代及优化;③对不同流量的用户进行细分,进行精准的市场定位;④通过设定指标,追踪流量情况,衡量流量推广活动效果或者渠道优化效果分析。 c:238
流量主要可以分为广告流量、SEO流量、搜索流量、直接流量及其他流量来源 c:142
跳出率指的是某一段时间内只访问了一页就离开的访问量与所产生的总访问量的百分比 c:149
2)做A/B测试有个前提是流量要足够大,且参与测试的流量要能够反映整体的实际情况。 3)A/B测试是一个长期的过程,经过长时间的足够样本的测试结果才能逼近真实结果。 c:134
用户运营的工作内容主要是扩大用户规模,减少用户流失,促进活跃及提高留存,增加付费转化。 c:238
表示用户参与度的另外两个指标是用户的停留时长及用户的访问页面数。 c:121
流失率的倒数用来表示预测的用户生命周期,如果一个产品的流失率为10%,则产品对应的生命周期为10个月。 c:92
将分析报告模板化后可以提高效率,节约时间,还可以将分析过程逻辑化,分析结论自动化 c:39
常见的数据分析报告包括定期数据报告(如日报、周报、月报、半年报、年报)、专题分析报告(如用户流失分析、用户留存分析、优惠券使用分析、新上线产品分析)、综合分析报告(如综合运营分析报告) c:109
数据管理报告并不是从有什么数据出发,而是从实际业务应用场景出发。 c:66
创建报告的准备工作主要包括:梳理报告所包含的数据指标,设计报告内容与呈现形式,根据报告正文页的版式确立需要用到的图表、函数、控件等内容。以结果为导向,先明确最终Excel数据日报的呈现形式 c:79
第一步需要根据分析的内容及指标,设计好报告的呈现内容与呈现形式,即根据分析纬度搭建数据报告的框架,可以先手动设计好报告的版式;第二步理清指标之间的逻辑关系,明确报告的呈现内容,设计报告的内容实现逻辑,建立数据源表和数据转化表;第三步按照设计调整报告元素及格式,设计自动化流程。 c:65
在数据转化表中主要用到了日期控件、MATCH函数、TEXT函数、OFFSET函数和INDEX函数。 c:52
OFFSET函数以指定的引用为参照系,通过给定偏移量得到新的引用。 c:14
为了减少重复性工作,数据提取人员可以使用Python自动化脚本跑定时任务,将写好的HQL语句放入Python脚本中,并在服务器上设置crontab定时调度任务,保证每天定时自动从数据仓库提取数据完毕后,将结果集写到Excel中并发送邮件到数据需求方的邮箱。 c:44
图3-15 专题分析类型 c:18
从整体上来看,主要分为总运营指标(KPI)、渠道类指标、流量类指标、营收类指标、用户类指标5类 c:107
俗话说“无法衡量,就无法改进”,通过搭建渠道数据监控指标体系,对核心指标进行监控,一方面可以及时发现每日运营的渠道异常变化,另一方面可以对不同的渠道进行质量评级,使得渠道投放和策略更有针对性。 c:55
定义一套对用户的监控指标可从三个方面来考虑:一方面是用户类型,另一方面是用户的留存与流失,第三方面是建立用户画像。 c:83
分析报告的框架结构包括总述、分述和总结三个部分,如图3-22所示。其中总述介绍了分析背景(为何要做此次数据分析)、分析目的(分析可以达到什么目的、解决什么样的问题)和数据来源(说明本次数据分析用到了哪些数据源);接下来的分述是对业务从多维度层层展开论述,用数据和图表去论证观点;最后需要对报告做总结,核心观点的总结能够解决业务上的问题,并能提出针对性的建议。 c:79
我们将其划分成比较分析、成分分析、趋势分析、分布分析、转化率分析等五类 c:56
判断两变量之间是否存在某种关联关系时选用散点图。矩阵图是从多维问题事件中,找出成对存在因素,排成矩阵图。根据矩阵中点位的分布来分析问题,定位问题的形态。 c:22
数据分析报告通常包括标题、目录、前言、数据分析正文、结论与建议五部分。 c:32
❑为什么要实施此次项目优化/数据分析?❑存在的主要问题是什么?❑本次分析的数据来源是什么? c:22
日报、周报、月报是数据运营人员的日常工作重点之一,在这类日常报表的工作中理清分析思路并形成一套结构化的思维是关键。 c:22
任何对现实的抽象都可以称为模型。数据分析模型可以理解为对数据分析思路的抽象。 c:99
常用的逻辑模型有4P营销理论、5W2H分析法、PEST分析方法、SWOT、杜邦分析法、逻辑树模型、金字塔原理、PDCA循环规则、SMART原则、二八原则等, c:203
这个理论将营销组合的要素分为产品(Product)、价格(Price)、促销(Promotion)、渠道(Place)四要素 c:76
多维分析主要基于两个方向展开:一个是指标,指标的细化;一个是维度,维度的多元,如时间维度,竞品维度等。 c:145
所谓指标,指的是用来记录关键流程的,衡量目标的单位或方法。 c:80
一个常用的判定规则。如果数据呈均匀分布,没有长尾骤升骤减的趋势,一般选择线性趋势线即可。如果数据一开始增长非常快,然后增速放缓,此时一般选择对数趋势线(在“其他”里面选择);如果数据一开始增长比较缓慢,然后变化比较迅猛,则选择指数趋势线;选择预测类趋势线的话会根据现有数据走势对数据将来的走势做一个预判;移动平均趋势线一般是在我们无法评估数据的变化程度时,根据数据的实际情况拟合的反映数据趋势变化的线。 c:106
权重的设定主要分两种:一种是客观赋权法,如变异系数法、熵值法、主成分分析法等;另一种是主观分析法,如专家赋权、层次分析法等。 c:104
漏斗图的主要运用场景有:①产品流程的关键路径转化追踪,比如电商常用的购买流程;②业务价值路径的转化流程追踪,比如常用的AARRR模型的价值转化追踪;③虚拟流程类指标追踪,比如按生命周期区分的不同生命周期阶段的用户流转形态追踪。 c:61
上一步流程转化率=当前步骤的用户/上一个步骤的用户×100%总体用户转化率=当前步骤的用户/流程开始的用户×100% c:13
AARRR是Acquisition、Activation、Retention、Revenue、Refer这五个单词的首字母缩写。它主要阐述的是用户从获取到激活,到留存,到产生营收,到口碑认可正向传播的一系列闭环效应。 c:34
常用的分类方法包括贝叶斯分类、决策树分类、KNN分类、逻辑回归等方法,常用的聚类方法包括K-Means聚类、层次聚类方法。 c:80
环形图的出现主要是为了既能传达有用的信息,比如显示各个部分与整体的比例,或显示某一部分的完成程度,又让传达的信息看起来美观大方。 c:12
文字云主要用来直观显示词频的大小。生成文字云的方式很多,BDP及WORDART等网站都可以实现。下面通过WORDART来介绍一下如何制作文字云。 c:37
AB Test是人类探究未知世界的一种分析方法,可以让你的决策更加接近真相。 c:12
常规做法是根据用户设备号+实验号合并为一串数字,对这串数字进行100取模运算,所得的余数为0~99,根据这些值来分配流量,比如ABCD四个版本,流量开放比例为60:20:10:10,则余数0~59为A版,60~79为B版,80~89为C版,90~99为D版。如果用户数量够大,设备号分布随机,理论上对于100的余数也是随机,可以实现流量控制的随机分配。 c:33
对于对照组,会开相同的流量(此处为CD版)进行AA测试,保证C版和D版的效果没有显著的统计性差异,确认之后再将CD合并为对照组,进而与B版进行AB测试,且CD版流量为B版的一半。A版则为兜底版本,对于没有拿到版本的流量走A版(比如取模失败,或者0~99上下溢出的bug场景的兜底)。 c:24
一般情况下,参与实验的UV日均< 5W的AB Test效果会很不稳定,P值很高,统计性差异不明显。 c:72
在分析问题的时候需要树立信心,只要是表象的异常,一定可以拆解到具体某一个环节,如果没有拆解到,就再用点儿心。同时需要了解,即使能够拆解到,但是能不能解决这个问题,需要具体问题具体分析。 c:15
在转化率的分解步骤上,虽然整体转化率看起来没有大变,但内部可能风起云涌。我们要做的不是抹平差异,而是要想办法加强明显上升的环节,削弱明显下降的环节。 c:22
任何能加速用户响应时间的改动,都会带来KPI的正向提升。 c:57
从埋点解决的问题不同,大概可以将其分为utm来源埋点、页面PV埋点、单击埋点native、单击埋点hybrid、业务埋点、曝光埋点,后续介绍从如下几个方面展开。 c:88
通过埋点将url中的信息写入cookie,一直带到下单环节,来源的aid字段计入订单主表,这将更为精准,对于大量依靠外部流量需要仔细计算ROI的时候是首选。 c:15
而且为避免异常值干扰,停留时间在计算时一般取中位数,而非平均值。 c:22
常用字段包括:❑页面UV:按日对设备号去重。❑页面visits:按日对session去重。❑页面PV:计算访问次数。❑退出次数:计算从该页面离开网站的次数,用来衡量该页面的质量。❑退出率:退出次数/页面PV。❑页面停留时长:下一页面时间与本页面时间之差,一般取中位数。 c:12
数据分析的本质是发现数据的特征和变化规律,常用的分析方法包括多维分析、趋势分析、综合评价分析和漏斗分析。多维分析通过从细分维度下钻数据定位原因,趋势分析通过与历史对比找到发展趋势,综合评价分析整合多指标进行评价,评价方法包括变异系数法、熵值法、主成分分析法,漏斗分析用于追踪产品流程及页面转化。 c:35
在竞品分析中通过爬取竞争对手的数据,如电商的价格、内容资源、商品评论、用户活跃等做对比、分析,可以了解到竞品的成交量、活跃量以及周转时间等核心数据,估算竞品业务运营情况,进而对本产品运营策略做出调整。 c:27
2)Ajax异步加载: c:11
决定从用户群体、用户来源渠道、用户的付费偏好等角度分析付费用户人群特点。 c:45
根据用户的消费特征和行为特征可以将用户分为许多类别 c:13
常见的用户分类包括:活跃用户、新用户、老用户、流失用户、回访用户等。 c:42
对于用户来源渠道的质量评判,可以从用户数量和渠道收入两个维度来衡量。 c:32
千人千面的个性化运营需要用户画像中基于用户的标签体系实现,这种形式开发周期较长,而基于RFM用户价值分群常见于数据分析项目中,作为业务分析框架对付费用户从整体层面做价值判断。 c:41
RFM模型评分方法是传统行业广泛应用的一种用于评价客户忠诚度、流失倾向和衡量客户生命价值周期的计算方法,但该方法作为一种成熟的用户分析方法,也广泛应用于互联网行业的数据运营中。 c:59
用户价值的划分包括基于规则的划分方法和基于聚类的划分方法。 c:13
RFM权重确定困难。各指标权重的确定在不同的分析场景、不同的分析人员间有不同的做法,没有一个统一的确定标准。 c:12
k-means是典型的基于距离聚类算法,通过计算不同样本的距离来判断它们的相近关系,将相近的样本会放到同一个类别中。 c:22
挽留一个老用户相比于拉动一个新用户,在增加营业收入、产品周期维护方面都是有好处的。诸如获得一个新用户的成本是留存一个老客户的5~6倍等。 c:58
用户留存依然是反映企业及产品核心竞争力的关键要素。 c:17
主要包括识别平台流失用户,定位用户流失原因,预警即将流失用户并提供用户分群名单给运营人员做重点运营。 c:51
通过构建基于决策树的用户流失预测模型,定量探索用户流失的主要因素,并识别出有流失倾向的用户。 c:49
为了判断用户是否流失首先需要定义用户的流失周期,这里引入回访用户的概念:即用户满足流失定义,在定义流失周期内没有访问行为后再度访问网站或App的用户。根据回访用户数计算用户的回访率,即:回访用户数/流失用户数×100%。借助用户回访率这一指标可以不断修正用户流失周期长度的判定。用户流失期限越长,用户的回访率越低,存在一个时间拐点,在该周期后用户回访率随周期的延长而下降缓慢,下降缓慢的这批用户即为平台长期活跃用户,而该周期即为用户流失周期。 c:67
其中数据的清洗转换包括缺失值的处理、衍生字段的处理等过程,均在HQL代码中实现。建立决策树模型,判断用户是否流失代码在Python中实现。 c:13
图8-1 用户流失预警建模总体流程 c:17
根据SEMMA的数据挖掘方法论,建模分析过程主要包括抽样(sample)、探索(explore)、修改(modify)、建模(model)和评估(assess)5个关键环节 c:55
各维度的分析只能对用户流失的原因提出假想,但流失用户究竟因为什么原因离开平台,还需要调研才能得知。 c:35
机器学习以统计理论为基础,通过算法对已知的训练数据做统计分析从而获得规律,再运用规律对未知数据做预测。 c:14
一个词的重要程度跟它在文章中出现的次数成正比,与它在语料库出现的频率成反比 c:11
贝叶斯分类中基于先验概率(P(b))、条件概率(P(a|b))来计算后验概率(P(b|a))。 c:14
用户画像可以使产品的服务对象更加聚焦和专注,增加用户的黏性、提高订单转化率。 c:45
建立用户画像所用的数据源是与用户相关的全部数据,包括用户的属性数据、行为数据及内容数据。 c:98
用户画像,即用户信息标签化,通过收集用户社会属性、消费习惯、偏好特征等各个维度的数据,对用户或者产品特征属性进行刻画,并对这些特征进行分析、统计以挖掘潜在价值信息,从而抽象出一个用户的信息全貌。 c:88
用户画像建模其实就是为用户打标签。为用户打的标签分为三种:基于统计类的标签、基于规则类的标签和基于挖掘类的标签。 c:145
用户群体属性画像可应用在两个方面:一方面,在冷启动阶段,由于缺少更细粒度的用户个性化标签,可以根据用户群体属性画像给用户推荐该群体所偏好的商品;另一方面,在向用户个性化推荐商品时,可根据用户所在群体偏好的物品种类向用户推荐。 c:26
图10-7 用户画像数仓架构 c:13
需要从用户属性画像、用户行为画像、用户偏好画像、用户群体偏好画像等角度去进行业务建模。 c:17
模块化开发、存储方式、更新机制 c:11
我们需要用模块化思维去进行画像的开发。模块化开发可以在有限的资源里高效、快捷地进行标签模型开发以及后续的迭代 c:17
标签主要可分为两大类——通用类标签和业务类标签 c:36
从类型角度看,标签可分为个人用户画像和群体用户画像。前者主要用于用户个性化定位,而后者用于对用户群体的定位。群体用户画像的建立都是基于个人的用户画像建立的,即先建立个人用户的画像(根据每个人的标签与对应权重确定属性值),而后建立群体的画像(统计各属性值在各属性中所占的比例) c:28
图10-11 用户画像建模存储流程 c:11
在用户规模不断增长的背景下,运营方考虑建立用户流失预警机制,以及时识别出将要流失的用户群体,采取运营措施进行用户挽回。 c:19
业务类数据、用户行为数据 c:14
数据分析人员一方面需要承担画像应用方面的需求,如根据用户画像做用户的价值分析、用户流失预警、挖掘即将从平台流失的用户,为业务方提供分析支持;另一方面需要承担整个用户画像建模挖掘,以及协调各业务方推进用户画像建设的重任。 c:28
用户标签权重 = 行为类型权重×时间衰减×用户行为次数×TF-IDF计算标签权重 c:23
权重值=行为类型权重×时间衰减×用户行为次数×TF-IDF计算标签权重。 c:13