偏差、方差、标准偏差、样本偏差
- 样本是对总体的抽样
- 总体是变量的一组样本
- 变量是针对总体抽象出来的数学概念
Deviation 偏差
Deviation 偏差用来衡量某个变量的观测值(observed)相对于另一个变量之间的差值 —— 通常是相对于该变量的平均值(mean)。
- 观测值(observed)和真实值(true value)之间的偏差叫做 error
- 观测值(observed)和真实值的预测值(estimate of true value)之间的偏差叫做 residual
很多时候变量的真实值是难以知道的,实践中用变量样本的平均值作为 estimate
Deviation 是个统计值
Deviation(偏差)指的是单个观测值(observed)的偏差。观测值常常不只一个,因此 deviation 也需要有一个统计意义上的度量。
- Standard Deviation 标准偏差
- Average Absolute Deviation - 偏差绝对值的平均
- Median Absolute Deviation - 用中位数(media)作为参考值
- Maximum Absolute Deviation - 偏差绝对值的最大值
MAE = Mean Absolute Error
MAE 常被用来表示预测值(predicted)和观测值(observed)之间的偏差。
Average Absolute Deviation
衡量偏离的程度,首先可以想到的是计算距离平均值的平均偏差。
Variance 方差
Variance 方差是一种平方形式的『偏差』(Deviation)
Standard Deviation 标准偏差
从概念上说,标准偏差是方差的期望值的平方根。
对于离散随机变量来说,考虑进去观测值出现的概率因素。
在古典概率情况下,各个值出现的概率相等,
实践中,我们往往不能针对数据总体进行计算,而是通过样本数据进行估算。
习惯上,
- 标准偏差经常简写作
SD
- 用希腊字母
σ
(sigma) 表示总体的标准偏差 - 用小写字母
s
表示样本的标准偏差
从样本数据估计标准偏差
是估算就有一个误差的问题。
直接按照上面的公式算出来的值被称为 Uncorrected Sample Standard Deviation