偏差、方差、标准偏差、样本偏差
- 样本是对总体的抽样
- 总体是变量的一组样本
- 变量是针对总体抽象出来的数学概念
Deviation 偏差
Deviation 偏差用来衡量某个变量的观测值(observed)相对于另一个变量之间的差值 —— 通常是相对于该变量的平均值(mean)。
$$
deviation = x_i - \bar x
$$
- 观测值(observed)和真实值(true value)之间的偏差叫做 error
- 观测值(observed)和真实值的预测值(estimate of true value)之间的偏差叫做 residual
很多时候变量的真实值是难以知道的,实践中用变量样本的平均值作为 estimate
Deviation 是个统计值
Deviation(偏差)指的是单个观测值(observed)的偏差。观测值常常不只一个,因此 deviation 也需要有一个统计意义上的度量。
- Standard Deviation 标准偏差
- Average Absolute Deviation - 偏差绝对值的平均
- Median Absolute Deviation - 用中位数(media)作为参考值
- Maximum Absolute Deviation - 偏差绝对值的最大值
MAE = Mean Absolute Error
MAE 常被用来表示预测值(predicted)和观测值(observed)之间的偏差。
$$
MAE = \frac{\sum_i^n \lvert y_i - x_i \rvert}{N} = \frac{\sum_i^n \lvert e_i \rvert}{N}
$$
Average Absolute Deviation
衡量偏离的程度,首先可以想到的是计算距离平均值的平均偏差。
$$
\frac{\sum_i^n \lvert x_i - \bar x \rvert}{N}
$$
Variance 方差
Variance 方差是一种平方形式的『偏差』(Deviation)
$$
Var(X) = E[(X - \mu)^2]
$$
Standard Deviation 标准偏差
从概念上说,标准偏差是方差的期望值的平方根。
$$
\sigma = \sqrt{Var(X)} = \sqrt{E[(X-\mu)^2]} = \sqrt{E[X^2] - (E[X])^2]}
$$
对于离散随机变量来说,考虑进去观测值出现的概率因素。
$$
\sigma = \sqrt{\sum_i^N p_i*(x_i - \mu)^2}
$$
在古典概率情况下,各个值出现的概率相等,
$$
\sigma = \sqrt{\sum_i^N \frac{1}{N}*(x_i - \mu)^2} = \sqrt{\frac{\sum_i^N (x_i - \mu)^2}{N}}
$$
实践中,我们往往不能针对数据总体进行计算,而是通过样本数据进行估算。
习惯上,
- 标准偏差经常简写作
SD
- 用希腊字母
σ
(sigma) 表示总体的标准偏差 - 用小写字母
s
表示样本的标准偏差
从样本数据估计标准偏差
是估算就有一个误差的问题。
直接按照上面的公式算出来的值被称为 Uncorrected Sample Standard Deviation
Corrected Sample Standard Deviation
$$
s = \sqrt{\frac{\sum_i^n(x_i - \bar x)^2}{N-1}}
$$