产品的知识——四类数据分析


今天看到了这个视频,还蛮受震撼的。瑞典统计学家汉斯·罗斯林(Hans Rosling)在这支2007年的视频里,展现了数据分析的重要作用。如果你不去做分析,不去做可视化,数据就只能是躺在数据库里的枯燥的密码和表格,谁爱看谁看。事实上,大部分人对数据没有清晰的认知不是因为没有数据,而是他们往往不够清晰、不易于理解。让所有人都能理解数据,是一种非常重要的能力。

我们一起来看看数据科学领域中的四种数据分析类型:描述性数据分析,诊断性数据分析,预测性数据分析和指导性数据分析。

描述性分析

这是一个最常见的数据包分析形式。它帮助我们直观的了解一些较为关键的指标。如用户量,DAU等等,描述性分析有几个典型的方法:

均值类方法

均值是最常见的度量值,这种方法

  • 适合数值型数据,不适合分类数据和顺序数据;
  • 受极端数值影响比较大,因此均值往往要配合方差食用,度量随机变量与均值之间的偏离程度;

倒数平均数(调和平均数)、几何平均数

分位数类方法

中位数:适合顺序型数据,不受极端值影响

四分位数:排序后处于25%(下四分位数)和75%(上四分位数)位置上的值

众数方法

  • 适用于数量较多时使用;
  • 不受极端值影响;
  • 一组数据可能没有众数或有几个众数;
  • 主要用于分类数据,也可用于顺序数据和数值型数据。

对数据离散程度的描述

  • 极差:最大数与最小数之差

  • 内矩:上四分位数与下四分位数之差,可用于评定中位数的代表性

  • 方差和标准差:离散程度常用的的主要测度值,标准差是方差开根号。
    $$
    方差:\sigma^{2}=\frac{\sum(X-\mu)^{2}}{N}
    $$

诊断性分析

为什么会出现这样的数据?

预测性分析

占坑

指导性分析

占坑

参考:

https://zhuanlan.zhihu.com/p/147933135


文章作者: Hank
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Hank !
评论
  目录