Statistic
Meaning of Statistic
为了研究一个问题而收集数据,数据就是样本。通过确定样本分布而建立统计模型。但要具体实施统计推断(Statistical inference),则要依靠依据具体数值的样本。样本本身是一堆杂乱无章的数字,要对这些数字进行加工整理,计算出一些量,用于统计推断。这种由样本计算出来的量,把样本中与所要解决的问题有关的信息集中起来了。
在统计上,把凡是由样本算出来的量称为统计量(Statistic),或者说,统计量就是样本的函数。并且,统计量只依赖于样本,而不能与任何未知的量相关,特别是不能依赖于未知参数。因为统计量的作用就在于对未知参数进行推断。
有用的统计量都是“有的放矢”的,是针对某种需要而构造的。笼统地讲,所提出的统计量应该最好集中了与问题有关的信息。这其实并不容易做到,因为在实践中,往往最初是从直观或某些一般性原则考虑提出统计量,再考察它是否在某种意义下较好地集中了样本中与问题有关的信息量。
Common Statistics
Sample Mean
设样本为 $X_1, \cdots, X_n$ ,则
\[\overline{X}=\dfrac1n\sum_{i=1}^nX_i\]称为样本均值。在样本 $X_1, \cdots, X_n$ 独立同分布的情况下,样本均值常用于估计总体分布的均值,或者检验有关总体分布均值的假设。
Sample Variance
设样本为 $X_1, \cdots, X_n$ ,则
\[S^2=\dfrac1{n-1}\sum_{i=1}^n(\overline{X}-X_i)^2 \label{samplevariance}\]称为样本方差。在样本 $X_1, \cdots, X_n$ 独立同分布的情况下,样本方差可用于估计总体分布的方差。
式 $\eqref{samplevariance}$中的 $n-1$ 称为 $S^2$ 的自由度。
自由度的解释有3种:
- 一共有 $n$ 个数值 $X_1, \cdots, X_n$,应该有 $n$ 个自由度(因为每个样本都是相互独立的,可自由变化,不受其他样本的影响),但有1个自由度已用于估计总体分布均值(用 $\overline{X}$ ),故还剩下 $n-1$ 个自由度;
- $S^2$ 是 $n$ 个数 $X_1-\overline{X},\cdots, X_n-\overline{X}$ 的平方和,但这 $n$ 个数受到一个(也只有一个)约束,即$\sum_{i=1}^n(X_i-\overline{X})=0$ ,故只有 $n-1$ 个自由度;
- 若以 $\overline{X}=\dfrac1n\sum_{i=1}^nX_i$ 代入 $\sum_{i=1}^n(\overline{X}-X_i)^2$ 中,而将其整理为二次型 $\sum_{i,j=1}^na_{ij}X_iX_j(a_{ij}=a_{ji})$,则可以验证:方阵 $A=(a_{ij})$ 的秩为 $n-1$,自由度就定义为这个秩。
Order Statistics
设$X_1,\cdots,X_n$为样本,把$X_1,\cdots,X_n$按由小到大的次序排列成$X_{(1)}\le X_{(2)}\le\cdots\le X_{(n)}$,则$(X_{(1)},\cdots,X_{(n)})$称为次序统计量。例如,若$X_1=1.3,X_2=0.7,X_3=1.8$,则次序统计量为$(0.7,1.3.1.8)$。单个的$X_{(i)}$或者$(X_{(1)},\cdots,X_{(n)})$的一部分,也称为次序统计量。
通过次序统计量,可以定义一些在实用上有重要意义的统计量。例如:
注:以下的统计量是基于次序统计量定义的。
(1)样本中位数
样本中位数$m$的定义式为:
\[m=\left\{ \begin{split} &X_{(\frac{n+1}{2})},\ &\mathrm{if\ n\ is\ odd}\\ &\dfrac12\Big(X_{\frac{n}{2}}+X_{\frac{n}2+1}\Big),\ &\mathrm{if\ n\ is\ even} \end{split}\right.\label{median}\]就是次序统计量中位置在正中的那一个,或位置最靠中的那两个的平均。在$X_1,\cdots,X_n$为独立同分布样本时,$m$也可用于估计总体分布中位数。若已知总体分布关于原点对称,则对称中心既是中位数也是均值,因此$m$可作为总体分布均值的估计,正态总体就是一个例子。
(2)样本$p$分位数($0<p<1$)
样本$p$分位数($0<p<1$)可定义为
\[X_{[(n+1)p]}\]其中,$[\cdot]$表示不超过$\cdot$的最大整数。当p=1/2时而n为奇数时,此定义与式$\eqref{median}$一致,但n为偶数时则不然。可以把样本p分位数的定义加以修改,使其当p=1/2时与式$\eqref{median}$一致。当$n$较大时,这个修改是有限的,一般没有这个必要。在$X_1,\cdots,X_n$为独立同分布时,样本$p$分位数可用于估计总体分布的$p$分位数。
(3)极值
极值指的是$X_{(n)}$和$X_{(1)}$,分别称为样本极大值和样本极小值。样本极值在某些关于灾害性现象和材料试验结果的统计分析中有用。如一定时期内一条河的最大流量、最大地震震级、材料断裂强度等,都是极值性的量。在数理统计中,有一个叫做极值统计分析的专题处理这种问题,后者也可以视为次序统计量统计分析的一部分。在极值统计分析种也用到较次要的极值,如$X_{(2)},X_{(3)},\cdots,X_{(n-1)},X_{(n-2)}$等等。
(4)极差
极差,即$X_{(n)}-X_{(1)}$。在样本$X_1,\cdots,X_n$独立同分布时,极差可用于估计总体分布的散布程度。
Sample Moment
有一类重要的统计量叫做样本矩,分为样本原点矩和样本中心矩。
- $k$ 阶样本原点矩:设样本为 $X_1, \cdots, X_n$,$k$ 为正整数,则
称为$k$ 阶样本原点矩。$a_1=\overline{X}$ 是最重要的样本原点矩,也就是上文所述的样本均值。
- $k$ 阶样本中心矩:设样本为 $X_1, \cdots, X_n$,$k$ 为正整数,则
称为$k$ 阶样本中心矩。二阶中心矩 $m_2$,它与样本方差只相差一个常数因子:$m_2=\dfrac{n-1}nS^2$。
最有用的样本矩是一、二阶的,三、四阶的也有一些应用,四阶以上则很少使用。有用的统计量有很多,它们都是在解决种种统计推断问题时产生的。
参考
[1] 概率论与数理统计. 陈希孺编著. 合肥: 中国科学技术大学出版社, 2009.2(2019.8重印).
[2] 数理统计学教程. 陈希孺编著. 合肥: 中国科学技术大学出版社, 2009.7(2021.10重印).