统计学分析数据软件（目前常用的数据统计分析软件）-自媒体运营-自由随风

首页自媒体运营正文

统计学分析数据软件（目前常用的数据统计分析软件）

2022-11-12 61

统计分析方法

※ 拆指标-1分布分析、2趋势分析、3因素分析

※ 拆数据-1个案分析、2异常分析、3分组分析

※ 不同分析方法的结合与创新

针对于指标的拆分有三种办法：分布分析、趋势分析和因素分析；针对于样本的拆分也有三种办法：个案分析、异常分析和分组分析，这六种分析方法即为本章的主要内容。

统计学分析数据软件（目前常用的数据统计分析软件）家具销售话术美容销售话术美容养生销售话术微信销售话术家装销售话术值得看韩国电视剧必看的美剧最新上映电影排行榜自媒体运营第1张

分布分析是使用频度分布表（或直方图或散点图），越过概要统计指标，进一步察看数据的详细情况。如经典的安斯康姆四重奏问题，四组数据（每个样本有两个维度特征x与y）在均值、方差、相关系数、线性回归线四个指标上均取值相同，但如果认为他们是类似的数据就大错特错了。

四组数据的情况完全不同，只有画出数据分布的散点图，做分布分析才能正确认知。

统计学分析数据软件（目前常用的数据统计分析软件）家具销售话术美容销售话术美容养生销售话术微信销售话术家装销售话术值得看韩国电视剧必看的美剧最新上映电影排行榜自媒体运营第2张

统计学分析数据软件（目前常用的数据统计分析软件）家具销售话术美容销售话术美容养生销售话术微信销售话术家装销售话术值得看韩国电视剧必看的美剧最新上映电影排行榜自媒体运营第3张

趋势分析分为单指标的趋势分析和多指标的趋势分析。单指标趋势分析关注单个指标变化趋势的4种构成，通过拆解来透彻掌握趋势中的多种信息。多指标的趋势分析关注多个指标变化趋势之间的相互影响，通过“系统基模”分析来掌握问题背后的全局逻辑。

趋势分析是将一条原始的时序曲线（随时间变化的指标曲线，如企业近36个月的营收变化），拆分成四个组成部分：趋势、周期、异常与波动。

（1）趋势：

曲线的大趋势是上涨、下降还是平稳，通常是最受关注的信息。

（2）周期：

曲线波动是否呈现周期性？以小时、天、周、月、季度还是年度为周期？由于人类的作息规律，很多互联网产品的流量均以一定的时间周期波动。

（3）异常：

曲线在某些时间点出现的非正常波动，如大幅的突增突降。有时候是自然的原因，有时候是人为的原因，如某个新闻事件爆发导致微博的流量猛涨，服务器机房的大规模断电导致产品流量下滑等等。

（4）波动：

从曲线中去除上述三个方面剩下的自然波动，应该满足正态分布，可以用标准差衡量波动幅度。

统计学分析数据软件（目前常用的数据统计分析软件）家具销售话术美容销售话术美容养生销售话术微信销售话术家装销售话术值得看韩国电视剧必看的美剧最新上映电影排行榜自媒体运营第4张

2. 多指标的趋势分析

在清晰掌握单指标趋势的基础上，进一步期望知道多指标之间的趋势变化关系，以及背后隐藏的系统性问题，就需要“多指标的趋势分析”。该分析主要采用系统基模的理论。

系统基模理论是对多个指标之间的变化趋势，系统化的逻辑分析。它强调在一个整体系统中，多个指标的变化是互相作用和影响的，最终形成一套生态逻辑。在这种场景，不能独立地看待每个指标的变化，而需要从全局出发，更透彻地理解系统问题并找到更根本的解决方案，改变“头痛医头，脚痛医脚”的决策模式。

系统基模理论由“3种基本元件”和“9种常见基模”两部分构成。

（1）基本元件：系统基模由3个基本元件构成，分别是增强环、调节环和时间延迟。

▷ 增强环：多个指标之间互相促进，形成交互式的增长。如打车软件，使用该软件的“乘客人数”与“司机人数”之间即为增强环。越多的乘客使得司机变得更容易接到订单，导致越多的司机愿意使用该软件。越多的司机使得乘客变得更容易订到附近的出租车，导致越多的乘客愿意使用该软件。

统计学分析数据软件（目前常用的数据统计分析软件）家具销售话术美容销售话术美容养生销售话术微信销售话术家装销售话术值得看韩国电视剧必看的美剧最新上映电影排行榜自媒体运营第5张

▷ 调节环：多个指标之间互相制约，最后达到某个平衡点。如企业的“体量”与“盈利率”之间即为调节环。当企业的盈利率增长时，企业有意愿和能力扩大业务，造成体量的增长。但随着企业体量的增长，会逐渐纳入一些盈利率不高的业务，导致整体的盈利率下降。当盈利率下降到一定程度时，企业没有能力再扩张业务，最后达到体量和盈利率的平衡点。

统计学分析数据软件（目前常用的数据统计分析软件）家具销售话术美容销售话术美容养生销售话术微信销售话术家装销售话术值得看韩国电视剧必看的美剧最新上映电影排行榜自媒体运营第6张

▷ 时间延迟：很多指标之间的相互影响，具有非线性的时延特点。如“优秀的产品体验”和“用户数上涨”，两者间是非线性的时延关系。当一个产品的功能和体验优化到极致时，容易以为用户数会稳步的增长，如下面的蓝色曲线所示。但实际上，用户数的增长在前期会非常缓慢，而到某一个时间点后开始爆发式的增长。这是由于互联网产品的传播特性决定的，也是”新产品如何运营“（Growth Hacking）成为业内火热话题的原因。这个阶段产品的KPI很难确定，因为如果未到爆发点，每季度的用户数增长率可能仅在10%～20%，而一旦达到爆发点，每个季度的用户数翻几倍都是常见的。

统计学分析数据软件（目前常用的数据统计分析软件）家具销售话术美容销售话术美容养生销售话术微信销售话术家装销售话术值得看韩国电视剧必看的美剧最新上映电影排行榜自媒体运营第7张

将上述三个基本元件，应用到众多业务场景，可形成多种多样的指标关系图（基模）。幸运的是，一些常见的基模已经被几代研究者们总结的比较清晰，可供参考。常见的基模有如下9种：饮鸩止渴、富者愈富、舍本逐末、目标侵蚀、恶性竞争、成长上限、共同悲剧、意外之敌、成长与投资不足。

拆指标-3 因素分析

拆指标的最后一个方法：因素分析。将一个综合性或结果性的指标按照某维度拆解，以便从更细致的角度观察数据。虽然该方法在“拆指标”的最后介绍，但它是最重要的一种数据分析方法。有经验的管理者都清楚，新接手一项业务，首要工作就是建立合理的“指标体系”，才能随时掌控业务进展，分析业务中的主要问题并规划改进方向。

构建指标体系，常用的拆分方法有两种：

（1）横向因素拆分（空间逻辑）：

将综合性指标按照某种维度拆解成共同影响结果的几个关键指标，典型的有针对企业财务的杜邦分析法。分解指标之间是并列的逻辑关系，分别代表不同的构成因素，例如企业的毛利可以拆成销售收入减销售成本。

（2）纵向阶段拆分（时间顺序）：

将结果性的指标按照业务实现流程进行拆解，又称为漏斗分析法。每个拆分指标之间是串行阶段的关系，如消费者的营销过程可拆分成：知晓、兴趣、比较、消费、评价。

这两种拆分方法的主要区别：一个的拆分维度是共同影响的并列因素，另一个的拆分维度是时序先后的递进阶段。

拆数据-1 个案分析

个案分析用“观察具体个案”的方法启发分析思路，辅以统计归纳。

实际上，个案分析过程非常类似机器学习中规则学习的方法：“sparate and conquer”，两者的学习框架是一致的，只不过从样本集合中提取规则，是靠人工观察还是机器统计而已。它不仅在数据分析领域很有用，在机器学习领域做“特征挖掘”时也经常用到。比如一个区分商品是正品还是次品的二分类模型，使用哪些特征做区分，刚开始并没有思路。运用个案分析，先挑一些典型的正品和次品，人工观察他们的主要区别，总结出一批特征维度。然后，将数据中可以用这些特征分开的商品的样本过滤掉，在剩余样本中再用个案分析进一步挖掘新特征，直到几乎所有样本都可以用总结的特征正确区分。

拆数据-2 异常分析

数据异常意味着有超越既有认知的情况出现。这些意外往往是启发新思路，推进产品改进的源泉，称为“异常分析”。

拆数据-3 分组分析

分组分析是将总样本集合按照某些维度拆分成几组，独立分析每组样本，并采取不同的产品策略。秉承“思考为什么”的学习模式，先回答“为何需要分组？”，再探讨“如何进行分组？”

为何需要分组？只有把样本按合适的维度拆分成更细致的分组，才能透彻理解数据的内涵。

下一个问题，如何进行分组？选哪些维度切分样本最合适？首先明确分组分析的目标：“分组内部的用户需求差异尽量小，分组之间的用户需求差异尽量大”，这也是选取切分特征的主要依据。

三个切分维度均基于一个目标：把不同需求的客户尽量分开，使得组内相近、组间相异。在实际项目中，可以根据业务理解来选择维度，也可以使用一些技术方法，如计算每个特征所带来的“信息增益”。

信息熵的计算公式如下：

H=-∑P（xi）log（2,P（xi）），i=1,2,…n其中，事件共有n种可能结果，P（xi）是结果xi发生的概率。

信息熵有如下特性：当每种可能的概率均等时，其值达到最大。如二元的信息墒计算结果如下图所示，当两种可能的概率p=0.5时，信息墒的结果是最大的；而当结果基本确定为某一种可能时，信息墒接近于0。

使用“信息增益”计算特征切分效率的过程如下。

步骤1：按照业务需要定义用户分类（如分成5类）。

步骤2：标记所有用户样本到所属分类（最贴近的类别即可）。

步骤3：以所有可能的特征为候选集，逐一使用每个特征切分样本，计算切分后的“信息增益”。“信息增益”代表使用该特征切分后，各分类纯度提升的程度。

步骤4：信息增益最大的特征即为当前最优的切分维度。

反复步骤3和步骤4，可以筛选出合适的特征列表。

除了用信息熵（information entropy）衡量纯度之外，少数类（minority class）和Gini系数（Gini index）也是常用的衡量方案。熟悉机器学习的朋友会发现，数据分析的很多技巧与数据建模是相通的。

最后，用一句话总结分组分析：寻找能将样本切分成组内相近、组间相异的分组维度，用这些维度拆分数据。独立分析每组数据的个性化特征，确定差异化的产品定位和商业策略。

不同分析方法的结合与创新

统计分析是通过某些维度去观察数据指标，思考原因并改进业务的过程。本章谈到的3种拆样本的方法（决定维度）和3种拆指标的方法（决定指标），是最基本的分析方法。在项目实践中，往往会结合多种分析方法，创造出最适用于业务场景的分析方法。下面以一个近两年在国外很火的数据分析方法Cohort Analysis，与大家说明下这种思考创新的过程。

Cohort Analysis是将“分组分析”和“趋势分析”相结合的方法，从一个时间跨度（生命周期）来观察不同用户分组的行为变化趋势。

Cohort Analysis分析方法

Cohort Analysis（有翻译成“断代分析”）是一种分析方法的框架，将用户依据某些特征进行分组，研究不同分组的用户在不同生命周期的表现情况。

实施这种方法，有以下三个核心步骤。

（1）如何定义分组（Create Cohort Identifiers）？维度1-决定用户分组的某种特征组合，通常用不同的趋势线标注。

（2）如何定义生命周期（Calculate Lifecycle Stages）？维度2-某种衡量用户生命周期的方法，通常转换为坐标系的横轴。

（3）如何定义观测量（Define Measurement）？观察指标，通常转换为坐标系的纵轴。

发表评论：取消回复

原文链接：https://zazhiba.com.cn/post/44407.html

=========================================

https://zazhiba.com.cn/ 为 “自由随风” 唯一官方服务平台，请勿相信其他任何渠道。