在【数据架构】篇中我们说过“数据是由业务产生。在业务的运行过程产生的数据,被记录到数据库不同的表中,此时的数据已经相当于被打散了再进行的记录,不能直观的反映出数据对应的业务了。数据架构就需要将已经被打散的数据,重新进行划分、组合来反映业务情况。”。
而本章要讲的数据指标,在这一过程中,充当了血肉填充的作用。将业务产生的数据,升级为数据指标,从而通过数据指标,来实现对业务的准确度量。
也就是说,如果数据架构是将已经被打散的数据,重新进行划分、组合来反映业务情况,那么,数据指标就是让反映业务情况这个目标,变得可描述、可度量、可拆解了。
业务产生的数据,需要怎样才能升级为数据指标呢?也就是数据指标的定义是什么。
数据指标的定义,没有一个统一的定义方式,每个人都可以有一个自己的定义方法。
有的定义是说:数据指标是一个被定义的数值,用来对事实进行量化抽象。这个抽象过程可以是一次的,也可以是多次。
如何抽象,怎么抽象,个人理解不上去。所以这里给出一个个人认为相对简单的定义。
数据指标,就是在数据的基础上,添加维度、汇总方式、计量单位三个元素之后,就称之为数据指标。他是为了从某一方面精准反应业务情况,让业务变得可描述、可度量、可拆解。
维度:
从什么角度去衡量,从什么角度来看这个数据。维度类型很多,如地理维度(其中包括国家、地区、省市等)、时间维度(其中包括年、季、月、周、日等级别内容)。
汇总方式:
用什么方法去衡量。也就是用哪种方式来对数据进行处理,是相加、求平均值等等。
计量单位:
用来明确衡量的计量单位。也就是日常中数据后面带的单位。如:10元、100个。这个元、个,就是计量单位。
举几个例子:
如「某部门2月份新招员工」这个指标。
维度就是某年2月份和某部门。汇总方式为新招员工求和。计量单位是个,多少个员工。
我们常听到的一些指标:如DAU、GDP等也都隐性包含着三者。
DAU:日活跃用户数量。统计一天之内, 登录了某个产品的用户数 (去除重复登录的用户)。
维度是一天。汇总方式隐性是需要相加的。计量单位就是个,多少个人。
GDP:指在一年(或一个季度),一个国家(或地区)的经济中所生产出的全部最终产品和劳务的价值。
维度是一年和一个国家。所有的价值即汇总方式是相加。计量单位是元,所有的价值值多少元钱。
你也可以试着找找生活中的其他指标,看看是不是都包含了:维度、汇总方式、计量单位,这三个元素。
小节一下,数据指标,让业务变得可描述、可度量、可拆解,它是在业务产生的数据的基础上,通过添加维度、汇总方式、计量单位,这三个元素之后,就从一个数据,变成一个数据指标了。
数据指标的分类方式有很多,可以按照所属业务类型来进行分类,如:用户指标、商品指标、财务指标还是运营指标,等等。
可以按照技术维度分类:实时指标(欺诈交易监测(毫秒级响应))、近实时指标(直播间在线人数(分钟级更新))、离线指标(年度财务报表(T+1计算))。
可以按照计算复杂度分类:原子指标(原始计数(如订单量))、复合指标(转化率=(下单用户/访客)×100%)、等等。
也可以按照战略层级来分类:战略级指标(市场占有率(CEO关注))、战术级指标(获客成本(部门总监监控))、还是执行层指标(客服接通率(一线团队优化))。
其他的分类方式,这里不过多介绍,这里说下,按照计算复杂度来对数据指标就行分类的方式。
在按照计算复杂度进行分类的时候,也没有一个统一的分类方法,有的会分三类,有的会分两类。在不同的分类方法中,说一下个人总结、汇总的分类方式。
一共分三种:原子指标、衍生指标、复合指标。
原子指标
原子指标是最基础、不可再分解的指标,通常对应业务行为的最小统计单元,是不可再拆分的指标。
是对某一事物绝对数量的统计。不依赖其他指标的计算。具有单一业务含义,如“订单数量”“页面访问次数”。
举例: 电商场景:订单数量、支付金额、商品点击次数
用户行为:DAU(日活跃用户数)、页面停留时长
可以看到,原子指标就是绝对数量的一个相加,对应一个最小的业务行为,是不能再拆分了。
衍生指标
衍生,即通过演变、演化而产生。
衍生指标,即通过原子指标,通过进行对比、计算统计量、指数设计(结合对比和统计计算)三种加工方式,即形成了衍生指标。
通过对比加的工方式,产生的指标,又可称为相对指标,或者相对数。
这里说一下对比加工中,常见的对比方式有5种:根据时间比(动态)、和总量比(结构)、和同类比(比较)、和关联因素比(强度)、和目标比(完成)。
通过计算统计量的加工方式,产生的指标,又可称为统计量指标。常见的如:平均数、中位数、极差、方差等等。
举例: 相对指标:升学率
统计量指标:平均客单价
指数指标:沪深300
可以看到,衍生指标就是通过原子指标(或者其他衍生指标),仅仅通过数据汇总方式(或者说数学运算),演化成的新指标。不会涉及到新的维度加入。
这里先对原子指标和衍生指标,做一个小节。
原子指标用于记录事实:进入指标汇总层面的第一步就是原子指标。我们通过原子指标来记录事实,例如访问的次数、出行的距离、消费的金额等等。所以当我们需要记录一些基本事实的时候,我们设计一个原子指标来量化它们。
相对衍生指标用于评价:我们通过原子指标,记录下了一堆的事实。紧接着,我们要做的就是对这些事实进行评价。常说“没有比较就没有伤害。”为什么没有伤害呢?因为没有比较,就很难做评价,进而我们也不知道自己是好是坏。所以当我们需要评价一些事实的时候,我们设计一个相对指标来量化它们。
当我们要评价一件事情的发展趋势的时候,我们可以用动态相对数;例如:同比、环比。
当我们要评价一件事对整体的影响的时候,我们可以用比例相对数;例如:市场占有率。
当我们要评价同一个事物在不同维度下的差异程度的时候,我们可以用比较相对数;例如:TGI、男女比例。
当我们要评价两个不同事物之间的关联的时候,我们可以用强度相对数;例如:投诉发起强度、退款发起强度。
当我们要评价计划的完成情况的时候,我们可以用完成相对数,例如:销售额完成进度。
统计数衍生指标提炼信息:有时候,我们会有非常多的记录或指标。它们蕴含着非常多的信息,但是价值的密度却很有限。这个时候就可用通过一些统计的方式,提炼其中的信息价值。例如我们有数以千万计的用户的月均消费金额,这时候可以通过统计分位置的方式对我们客户整体的消费能力做一个刻画。
有的分类中,还会有一种派生指标的说法,这里也将派生指标,包含在衍生指标这一类中。
派生指标
根据分化而产生 对原子指标和衍生指标,进行维度限定的时候,就形成了派生指标。
维度绑定:需指定时间、空间、用户分层等维度。
动态衍生:同一指标在不同维度下产生多个派生版本。
举例:
时间维度:7日平均DAU、月环比增长率
用户分层:新用户付费率、VIP用户复购率
可以看到,派生指标是在原子指标(或者其他衍生指标)的基础上,添加新的维度限定,从而分化出来的新指标。
而且,不管是派生指标,还是衍生指标,都是在一个单一指标上的变化,所有这里将这两个归为一类,统一叫衍生指标。
复合指标
复合指标是在原子指标和衍生指标的基础上复合成的。
举例: 转化率 = 下单用户数 / 访问用户数 × 100%
客单价 = 总销售额 / 订单数量
可以看到,复合指标是由多个指标进行相互之间的复合转化而成的。
说完了这几种数据指标的分类,到底怎么分,并没有一个一定的标准,只要是个人或者一个组织内部能够达成一致了,并且适用现状,那么这个就是一个好的分类。
这个分类是按照计算复杂度来分类的,在实际指标统计中这个计算复杂度,又可以被称为计算口径,是一个计算这个数据指标的一种方式说明,这个在下一节【数据指标规范化命名】中介绍。
只要涉及到大量的内容,就需要对大量的内容有一个规范化的统一。针对数据指标,就是数据指标的命名统一规范。
指标命名公式 = 限定词+ 业务主题+ 指标名称+ 量化词
限定词:
用来对指标进行限定约束。比如:当天、本周、当月、平均、累计。
业务主题:
用来描述业务在哪个过程阶段。比如:打开页面、下单、点击支付、支付成功、支付失败。
指标名称:
是指标要统计的对象实体名称。比如:统计订单还是用户。
量化词:
是对一物理量的测定,通常以数字单位来表示。比如:金额、份额、次数、率。
数据指标的规范化命名统一,在上一章【数据指标工具】的第二小节【“指标口径管理系统”的困境】中最后部分说的也是同一件事,需要有对应的中英对照的缩写清单。
在第一节中,说到数据通过添加维度、汇总方式、计量单位三个元素,就变成了指标。和本节不冲突,指标命名公式,是三个元素的规范性表达。
不管是哪种分类,描述业务时都需要大量的数据指标,而这些数据指标的集合形式了数据指标库,或者叫做数据指标字典。
除了规范性表达外,还会包含一些其他的信息,有时候又划分为技术类、业务类、管理类,这三类信息。
这些附件信息列举一些包括:
业务分类、指标名称、指标英文名称、指标定义、可用维度、指标口径、计算公式、指标类型、计量单位、统计周期、更新频率、指标来源。等等。
这里也提前说一下,指标字典可以理解为是一维的、打平的,是通过指标为索引进行检索内容。而后面要介绍的指标体系是有业务组织的、成体系的,是有逻辑关系的。
前面,说的是数据指标定义、数据指标的分类、数据指标的内容,主要是对数据指标的介绍。下面我们介绍一下数据指标体系。
什么是数据指标体系?
按照名字来说就是数据指标集合+指标间的关联关系。
数据指标集合:
多个数据指标形成的集合,就是数据指标集合,也就是上一节所说的指标库或者指标字典。
一个业务线要描述清楚,一定是需要许多的数据指标,从不同的角度来进行描述的。这些许多的数据指标就组成了数据指标集合。
指标间的关联关系:
指标集合中,指标与指标之间是有相互间的关联关系,是有体系的,有逻辑关系的。
这种关联关系的表达,可能不是特别好展示,类似于树状结构的展示,似乎能够更好的表达这个关系。
那么,为什么需要指标体系?
通过数据指标,可以实现对业务的准确度量。但是业务是复杂的,通过单一指标、或者某几个指标,是否能够对业务的全貌进行精准度量?答案一定是否定的。
举个例子来说:
目前有 A 和 B 超市在待选名单中,那 我们该如何衡量这两家超市的经营状况与盈利能力呢?
看哪家超市「收入」多? 不对,应该看「利润」,哪家利润多,哪家的盈利能力才强 也不对,我们要看利润占收入的比例,也就是「利润率」 我们可以看看两家超市的「投资回报率」,也就是每投入 100 元,每家超市可以赚多少钱
其实上面每个人提的都是单一指标,那是否某个单一财务指标可以全面地衡量公司的盈利状况呢?
答案很显然是不能。因为企业的经营管理是复杂的,一个问题往往需要从多个角度进行分析。相比于单一指标“出现什么问题,分析什么”,成体系化的指标即指标体系“通常能够结合问题所在的背景、串联各个指标、通过各种维度进行分析”,从而使解决方案更加有针对性,也能在出现异动时快速顺藤摸瓜,定位出掉链子的环节。
这就是为什么我们需要搭建指标体系。在业务分析中,一个好的指标体系可以帮助我们更快、更精准地找到答案。
通过上面的例子,我们也可以总结一下,需要数据指标体系,是因为单一的一个或者几个指标,没有办法全面的业务进行度量。
即使有大量的指标,缺失了指标间的关联关系,也会让获取的业务信息很乱,没有条理性。
越是在大型组织当中,指标体系越为重要,因为决策者离一线业务较远。公司的业务虚拟属性越强,指标体系越为重要。
简而言之,建立指标体系的目的就在于获取全局性的、有体系性的信息;进而通过这些信息去驱动业务的发展,达成组织目标,这就是指标体系之所以重要的原因。
相比于单一指标“出现什么问题,分析什么”,成体系化的指标即指标体系“通常能够结合问题所在的背景、串联各个指标、通过各种维度进行分析”,从而使解决方案更加有针对性,也能在出现异动时快速顺藤摸瓜,定位出出问题的环节。
归纳一下,数据指标体系的目标:
目标一:能够更加全面的对业务进行度量,获取有体系性的信息。
目标二:为业务线上的各个部门,明确统一的目标,来做到思想统一。
目标三:在这个统一目标的前提下,能够有层次的将分支目标落在各个业务线上,从而更好的进行协同。
数据指标体系建立的过程,就是业务梳理的过程。对业务理解的多深、多细,直接决定了数据指标体系的建设的深度、细度。
数据指标体系构建的方法可以总结为三个步骤,即明确业务目标、理清用户生命周期及行为路径、指标体系分层治理。
在这三个步骤中又涉及OSM(Object Strategy Measure)、AARRR(Acquisition Activation Retention Revenue Referral)、UJM(User Journey Map),MECE(Mutually Exclusive Collectively Exhaustive)四个模型,这四个模型是指导数据分析师构建完整而清晰的指标体系的方法论。
四个模型和三个步骤之间的关系,如下。
这些模型理论,这里就不过多的介绍了,如果想进一步了解可以搜索研究下。
整个指标体系的指标内容很多,有很多指标对应值的增减还是相互冲突的。这个时候就需要有一个指标来给整个数据分析提供一个关键目标,也就是常说的北极星指标。
北极星指标的确定是和业务目标强绑定的。在不同的业务阶段需要确定不同的北极星指标。
举个简单例子,在业务初始阶段,我们特别需要产品的新增用户,那么每天的日活可能就是北极星指标。在业务平稳阶段,需要的是用户能够长时间的留在平台上,那么使用时长可能就是一个北极星指标。当然,这只是简单举例子。
看出来了吧。北极星指标确立的第一步是明确一个业务目标。有了这个业务目标之后再理清用户生命周期及行为路径,然后按照指标的层级进行不断的拆解,来将目标细化。
可以把整个指标体系想象成一张大网,网上面每一个节点就是一个指标。当拎起网上面某个节点的时候,就是北极星指标,随着被拎起的节点带动的下游相关节点,就是层层拆解的细化指标。
常用的就是电商的例子:
GMV = 流量(UV) × 转化率(CVR) × 客单价(ARPU)
按照业务环节逐层拆解:
流量层(用户触达)
流量规模:
总UV(独立访客)、PV(页面浏览量)
各渠道流量占比(如自然流量、付费广告、社交媒体)
流量质量:
跳出率、页面停留时长
新客占比、老客回流率
转化层(用户行为)
关键转化环节:
加购率:加购用户数 / 访问用户数
结算率:进入结算页用户数 / 加购用户数
支付成功率:支付成功订单数 / 提交订单数
漏斗流失分析:
各环节流失率(如首页→商品页→加购→结算→支付)
用户价值层(客单价与复购)
客单价(ARPU):
单次购买金额:GMV / 订单数
连带率:平均每单商品件数
促销敏感度:折扣订单占比
复购驱动:
复购率:周期内购买≥2次的用户占比
用户生命周期价值(LTV)
通过这个例子,是不是也能说明一个完整的指标体系的重要性。
这个也是进行预测时,能够准确预测的关键,最细粒度的能够把控住,那么,最终的预测值也就很好评估了。
怎么评价一套数据指标体系中包含的指标库是已经足够的了,指标间的关联关系是明确的了。这个我们就要从数据分析要解决的问题入手,通过数据分析通常我们预期能够解决4类问题,分别是:描述现状、分析原因、预测未来、改善未来。
根据对问题的解答程度,我们可以将指标体系分为四个层次:
描述现状:这套指标体系,可以帮助我们基本还原业务整体的运营现状。
分析原因:这套指标体系,可以帮助我们对业务的变化进行归因,对问题进行定位。
预测未来:这套指标体系,可以帮助我们,进行假设分析,对未来做出一些预判。
改善未来:这套指标体系,可以帮助我们找到,改善业务的动作、策略、战略。
一个可用的指标体系,至少要达到以上四个层次其中之一。能够达到的层次越高,这套指标体系能产生的价值越大。
数据指标体系很好,但是他并不是一蹴而就的,并不需要在一开始就搭建一个对所有业务细节都清晰量化的大而全的指标体系。
通常,好的指标体系也并不是在起初就完美的设计出来的,随着实践的深入、认识的提高,逐渐生长出来的。
而且,在实际的工作中,很少有机会能够这样从头开始全新的规划一个数据指标体系。能够按照一个业务线,进行可扩展的足够灵活的建模就不错了,大部分情况可能是,业务提一个需求建一张表,可扩展性、复用性,都不考虑。
怎么区分是可扩展、足够灵活的建模,还是业务提一个需求就建一张表那。其实还是挺好区分的。只要看看接到需求之后的建模过程就行了。
如果接到需求之后的建模过程是,了解业务流程、了解业务数据库,能够划分出来业务线、粒度、维度、事实,自己能够判断出来,创建的模型能够从哪个表的哪个字段里面取出,那么基本上就是一个可扩展的灵活的建模过程了。
如果建模过程是接到需求之后,不了解业务流程,直接要到表结构,业务直接说哪个字段从哪里取,两个表之间通过什么关联,那么基本上就是来一个需求建一张表,不考虑复用性了。这样,需求无止境,建模也就无止境。数据中台看似很忙,但是产生的数据资产确很乱。永远忙,永远说不清忙的价值。
这是需要避免的一个误区,我们需要通过不断的深入业务了解,尝试让数据指标体系“生长”出来,并且如果生长出来一套数据指标体系,那么,这个体系的目标最好能够设定为“改善未来”的。
我们应该在有限的时间、精力、技术资源下,产出尽可能高价值的数据资产。事实上,只要掌握了科学的指标体系建设方法和数据探索方法,不需要太多的指标,就能构建出一套可以“改善未来”的指标体系。
在上一章【数据指标工具】中,也说明了对于指标工具落地的相对悲观。不管是指标口径管理系统,无法有效的融入开发过程,还是指标数据查询系统对于现状的一些冲突。
不过,随着数据指标体系的慢慢生长出来,是不是在面对指标数据查询系统的时候,我们可以有一个思路来解决“和开发的边界问题”了。
完全将所有的数据指标都纳入到指标体系,不管是在工程量还是可行性上,多少都会有些问题。是不是实际中我们也并不需要将所有的数据指标都纳入到数据指标体系中。能够按照当前目标,进行关键的中间指标、执行指标的拆解即可。
这其实也为上一章的指标数据查询平台提供了一个思路,就是只将数据指标体系内的数据指标,纳管在指标数据查询平台上,而不在这个体系内的,则仍旧使用原有路径进行查询。这个也是一个问题解决思路。
需要特别关注的一点就是,在不同领域的指标,需要有对应的领域负责人进行,指标的管理,新增、删除、调整等等,都需要有审批流程。这个其实多少和数据架构中数据模型的发布相通的,毕竟,在开篇也提到了,数据架构和数据指标,共同来进行业务还原。
政策:
指标和指标体系的梳理过程,需要业务的配合,如何配合,需要在政策层面上理清流程,确认权责。
工具:日常工作中,对于指标的梳理,对于指标体系的梳理,都使用什么工具那?个人理解其实现在大部分情况下都是使用excel来做梳理,然后拉会一起讨论,确定各个指标相关方,在指标的定义、口径、计算方式上是不是达成统一了。
通常情况下这种方法都是能够奏效的。可以完成一个项目制的统一指标目标。但是如果更大范围的,更长时间的指标统一,就显得不那么可靠了。
有一个指标口径管理平台就能够解决这个问题吗?这个答案我也给不出来。只能说指标口径的管理很重要。至于,工具在这个过程中扮演的定位确不好说了。就像前一章说的,这个指标系统,到底是一个指标口径管理系统还是一个指标数据查询系统,起到的定位是什么?个人在这方面的工具还是比较悲观的,也欢迎有更多想法的人,进行交流沟通。
但是,像上面【组织】部分提到的,指标的新增、删除、调整等需要有一个统一的审批。这个部分其实是体现在模型的创建,发布上,这个也就是对数据模型的创建修改,的审批流程提出一定的工具要求了。
业务:
指标体系梳理的过程,本身就是业务梳理的过程,所以需要能够深入到业务中去。了解了业务,才能了解指标体系。了解了业务目标,才能让数据分析在使用指标的过程中更有侧重点。
所以,整个指标、指标体系的过程需要深入的了解业务,业务的当前现状、当前目标,内部各种关系。
数据:
指标的梳理,不涉及到具体的数据内容。
数据指标与数据指标体系,是一个很大的话题,是一个数据领域的分支,和业务有深度的结合,又是数据分析等领域的基础,本章只是从一个产品经理的角度,梳理了一些个人认为的重点,仅作参考,如果希望进行一步了解,可以在这个“核”的基础上,进行不断修炼,完善。这个也是本书的一个目的,通过极简的介绍,让你对数据治理各个模块快速有一个理解。之后的升级,就需要各种磨炼了,甚至需要各种工作机缘了。