Statistic
Meaning of StatisticPermalink
为了研究一个问题而收集数据,数据就是样本。通过确定样本分布而建立统计模型。但要具体实施统计推断(Statistical inference),则要依靠依据具体数值的样本。样本本身是一堆杂乱无章的数字,要对这些数字进行加工整理,计算出一些量,用于统计推断。这种由样本计算出来的量,把样本中与所要解决的问题有关的信息集中起来了。
在统计上,把凡是由样本算出来的量称为统计量(Statistic),或者说,统计量就是样本的函数。并且,统计量只依赖于样本,而不能与任何未知的量相关,特别是不能依赖于未知参数。因为统计量的作用就在于对未知参数进行推断。
有用的统计量都是“有的放矢”的,是针对某种需要而构造的。笼统地讲,所提出的统计量应该最好集中了与问题有关的信息。这其实并不容易做到,因为在实践中,往往最初是从直观或某些一般性原则考虑提出统计量,再考察它是否在某种意义下较好地集中了样本中与问题有关的信息量。
Common StatisticsPermalink
Sample MeanPermalink
设样本为
称为样本均值。在样本
Sample VariancePermalink
设样本为
称为样本方差。在样本
式
自由度的解释有3种:
- 一共有
个数值 ,应该有 个自由度(因为每个样本都是相互独立的,可自由变化,不受其他样本的影响),但有1个自由度已用于估计总体分布均值(用 ),故还剩下 个自由度; 是 个数 的平方和,但这 个数受到一个(也只有一个)约束,即 ,故只有 个自由度; - 若以
代入 中,而将其整理为二次型 ,则可以验证:方阵 的秩为 ,自由度就定义为这个秩。
Order StatisticsPermalink
设
通过次序统计量,可以定义一些在实用上有重要意义的统计量。例如:
注:以下的统计量是基于次序统计量定义的。
(1)样本中位数
样本中位数
就是次序统计量中位置在正中的那一个,或位置最靠中的那两个的平均。在
(2)样本
样本
其中,
(3)极值
极值指的是
(4)极差
极差,即
Sample MomentPermalink
有一类重要的统计量叫做样本矩,分为样本原点矩和样本中心矩。
阶样本原点矩:设样本为 , 为正整数,则
称为
阶样本中心矩:设样本为 , 为正整数,则
称为
最有用的样本矩是一、二阶的,三、四阶的也有一些应用,四阶以上则很少使用。有用的统计量有很多,它们都是在解决种种统计推断问题时产生的。
参考
[1] 概率论与数理统计. 陈希孺编著. 合肥: 中国科学技术大学出版社, 2009.2(2019.8重印).
[2] 数理统计学教程. 陈希孺编著. 合肥: 中国科学技术大学出版社, 2009.7(2021.10重印).