偏差、方差、标准偏差、样本偏差

  • 样本是对总体的抽样
  • 总体是变量的一组样本
  • 变量是针对总体抽象出来的数学概念

Deviation 偏差

Deviation 偏差用来衡量某个变量的观测值(observed)相对于另一个变量之间的差值 —— 通常是相对于该变量的平均值(mean)。

$$
deviation = x_i - \bar x
$$
  • 观测值(observed)和真实值(true value)之间的偏差叫做 error
  • 观测值(observed)和真实值的预测值(estimate of true value)之间的偏差叫做 residual

很多时候变量的真实值是难以知道的,实践中用变量样本的平均值作为 estimate

Deviation 是个统计值

Deviation(偏差)指的是单个观测值(observed)的偏差。观测值常常不只一个,因此 deviation 也需要有一个统计意义上的度量。

  1. Standard Deviation 标准偏差
  2. Average Absolute Deviation - 偏差绝对值的平均
  3. Median Absolute Deviation - 用中位数(media)作为参考值
  4. Maximum Absolute Deviation - 偏差绝对值的最大值

MAE = Mean Absolute Error

MAE 常被用来表示预测值(predicted)和观测值(observed)之间的偏差。

$$
MAE = \frac{\sum_i^n \lvert y_i - x_i \rvert}{N} = \frac{\sum_i^n \lvert e_i \rvert}{N}
$$

Average Absolute Deviation

衡量偏离的程度,首先可以想到的是计算距离平均值的平均偏差。

$$
\frac{\sum_i^n \lvert x_i - \bar x \rvert}{N}
$$

Variance 方差

Variance 方差是一种平方形式的『偏差』(Deviation)

$$
Var(X) = E[(X - \mu)^2]
$$

Standard Deviation 标准偏差

从概念上说,标准偏差是方差的期望值的平方根。

$$
\sigma = \sqrt{Var(X)} = \sqrt{E[(X-\mu)^2]} = \sqrt{E[X^2] - (E[X])^2]}
$$

对于离散随机变量来说,考虑进去观测值出现的概率因素。

$$
\sigma = \sqrt{\sum_i^N p_i*(x_i - \mu)^2}
$$

在古典概率情况下,各个值出现的概率相等,

$$
\sigma = \sqrt{\sum_i^N \frac{1}{N}*(x_i - \mu)^2} = \sqrt{\frac{\sum_i^N (x_i - \mu)^2}{N}}
$$

实践中,我们往往不能针对数据总体进行计算,而是通过样本数据进行估算。

习惯上,

  • 标准偏差经常简写作 SD
  • 用希腊字母 σ (sigma) 表示总体的标准偏差
  • 用小写字母 s 表示样本的标准偏差

从样本数据估计标准偏差

是估算就有一个误差的问题。

直接按照上面的公式算出来的值被称为 Uncorrected Sample Standard Deviation

Corrected Sample Standard Deviation

$$
s = \sqrt{\frac{\sum_i^n(x_i - \bar x)^2}{N-1}}
$$