今天看到了这个视频,还蛮受震撼的。瑞典统计学家汉斯·罗斯林(Hans Rosling)在这支2007年的视频里,展现了数据分析的重要作用。如果你不去做分析,不去做可视化,数据就只能是躺在数据库里的枯燥的密码和表格,谁爱看谁看。事实上,大部分人对数据没有清晰的认知不是因为没有数据,而是他们往往不够清晰、不易于理解。让所有人都能理解数据,是一种非常重要的能力。
我们一起来看看数据科学领域中的四种数据分析类型:描述性数据分析,诊断性数据分析,预测性数据分析和指导性数据分析。
描述性分析
这是一个最常见的数据包分析形式。它帮助我们直观的了解一些较为关键的指标。如用户量,DAU等等,描述性分析有几个典型的方法:
均值类方法
均值是最常见的度量值,这种方法
- 适合数值型数据,不适合分类数据和顺序数据;
- 受极端数值影响比较大,因此均值往往要配合方差食用,度量随机变量与均值之间的偏离程度;
倒数平均数(调和平均数)、几何平均数
分位数类方法
中位数:适合顺序型数据,不受极端值影响
四分位数:排序后处于25%(下四分位数)和75%(上四分位数)位置上的值
众数方法
- 适用于数量较多时使用;
- 不受极端值影响;
- 一组数据可能没有众数或有几个众数;
- 主要用于分类数据,也可用于顺序数据和数值型数据。
对数据离散程度的描述
极差:最大数与最小数之差
内矩:上四分位数与下四分位数之差,可用于评定中位数的代表性
方差和标准差:离散程度常用的的主要测度值,标准差是方差开根号。
$$
方差:\sigma^{2}=\frac{\sum(X-\mu)^{2}}{N}
$$
诊断性分析
为什么会出现这样的数据?
预测性分析
占坑
指导性分析
占坑
参考: