偏差、方差、标准偏差、样本偏差

noyesno

at 2020-05-13

Deviation 偏差

Deviation 偏差用来衡量某个变量的观测值（observed）相对于另一个变量之间的差值 —— 通常是相对于该变量的平均值（mean）。

$$
deviation = x_i - \bar x
$$

很多时候变量的真实值是难以知道的，实践中用变量样本的平均值作为 estimate

Deviation（偏差）指的是单个观测值（observed）的偏差。观测值常常不只一个，因此 deviation 也需要有一个统计意义上的度量。

MAE 常被用来表示预测值（predicted）和观测值（observed）之间的偏差。

$$
MAE = \frac{\sum_i^n \lvert y_i - x_i \rvert}{N} = \frac{\sum_i^n \lvert e_i \rvert}{N}
$$

衡量偏离的程度，首先可以想到的是计算距离平均值的平均偏差。

$$
\frac{\sum_i^n \lvert x_i - \bar x \rvert}{N}
$$

Variance 方差是一种平方形式的『偏差』（Deviation）

$$
Var(X) = E[(X - \mu)^2]
$$

从概念上说，标准偏差是方差的期望值的平方根。

$$
\sigma = \sqrt{Var(X)} = \sqrt{E[(X-\mu)^2]} = \sqrt{E[X^2] - (E[X])^2]}
$$

对于离散随机变量来说，考虑进去观测值出现的概率因素。

$$
\sigma = \sqrt{\sum_i^N p_i*(x_i - \mu)^2}
$$

在古典概率情况下，各个值出现的概率相等，

$$
\sigma = \sqrt{\sum_i^N \frac{1}{N}*(x_i - \mu)^2} = \sqrt{\frac{\sum_i^N (x_i - \mu)^2}{N}}
$$

实践中，我们往往不能针对数据总体进行计算，而是通过样本数据进行估算。

习惯上，

是估算就有一个误差的问题。

直接按照上面的公式算出来的值被称为 Uncorrected Sample Standard Deviation

$$
s = \sqrt{\frac{\sum_i^n(x_i - \bar x)^2}{N-1}}
$$