数理统计学与概率论是两个有紧密联系的姊妹学科。大体上可以说,概率论是数理统计学的基础,而数理统计学是概率论的重要应用。数理统计学是一门应用性很强的学科,有其方法、应用和理论基础。

当我们用试验或观察的方法研究一个问题时,首先要通过适当的观察或试验取得必要的数据,然后对所得数据进行分析,以对所提问题做出尽可能正确的结论。之所以说是“尽可能正确”,是因为数据一般总是带有随机性的误差。这里的误差并不是指因测量不准而导致的误差(当然,这种误差因仪器和操作导致的误差也是构成数据误差的一个可能的来源),而是主要指由于观察和试验所及一般只能是所研究事物的一部分,而究竟是哪一部分则是随机的。例如,一个学校有上万名学生,从中抽取50人研究该校学生的学习情况,抽取的“50个人”不同,所得数据就不同,这完全凭机会而定。这里的随机误差主要指这个。由于数据带有这样的随机性,通过分析这些数据而做出的结论,也就难免不出错了。分析方法的要旨,就在于使可能产生的错误越小越好,发生错误的机会越小越好,这就需要使用概率论的工具。

总之,数理统计学是这样一门学科,它使用概率论和数学的方法,研究(1)怎样通过试验或观察收集带有随机误差的数据,(2)并在设定的模型(称为统计模型)之下,(3)对这种数据进行分析(称为统计分析),以(4)对所研究的问题做出推断(称为统计推断)。

例如,某工厂生产大批的电子元件,并且假定这些元件的寿命服从指数分布:

\[f(x)=\left\{ \begin{split} &\lambda e^{-\lambda x},\qquad &if\ x>0\\ &0, &if\ x\le0 \end{split}\right.\notag\]

在实际应用时,我们可以提出许多感兴趣的问题,例如:

  • 元件的平均寿命如何?
  • 如果使用单位要求平均寿命能达到某个指定的数$l$,例如5000个小时。问这批元件可否被接受?

在本例中,“元件寿命服从指数分布”是具有实际背景的合理的数学模型,即本问题的统计模型。如果知道了该分布的参数$\lambda$的值,我们就可以知道平均寿命为$1/\lambda$,于是上面的问题就可立即解决。但是,在实际应用时$\lambda$往往是未知的,我们只能从这一大批元件中随机抽出若干个,例如$n$个,并测出其寿命分别为$X_1,\cdots,X_n$。

那么,这$n$个元件如何选取呢?主要还是保证这一大批元件中,每一件都有同等的被抽出的机会,而这并不是很容易办到的事情,需要想些办法,既能减轻工作量,又能尽可能保证上述同等机会的要求。

当有了数据$X_1,\cdots,X_n$后,一个自然的想法是:用其算术平均值$\overline{X}=(X_1+\cdots +X_n)/n$去估计平均寿命$1/\lambda$。当然,$\overline{X}$不一定恰好等于$1/\lambda$。但在实际问题中,我们不会、也不可能要求所做的估计丝毫不差。但是:

  • 误差可能有多大?

  • 产生指定大小的误差的概率有多大?

  • 为了使这个概率降至指定的限度(如,0.1),抽出的元件个数$n$至少应达到多少?

这些问题的解决方法及有关理论,就是数理统计学的内容。

本例提出的第一个问题称为参数估计问题,因为$\lambda$是元件寿命分布中的一个未知参数,而我们的问题是要估计由$\lambda$决定的一个量,即$1/\lambda$。参数估计是最重要的统计问题之一

对于第二个问题,我们可能会认为:至少就本例而言,解决了第一个问题,也就解决了第二个问题,因为既然用$\overline{X}$去估计平均寿命,那就看$\overline{X}$是否不小于指定的数$l$。若$\overline{X}\ge l$,则接受该批产品,不然就不接受。应当承认,这也是一个可以考虑的解法。但是还应该注意到,如上文所指出的:因为使用$\overline{X}$估计平均寿命有误差,我们得根据实际需要进行一定的调整。即把接受的准则规定为$\overline{X}\ge l_1$,$l_1$是个选定的数,可以大于、等于或小于$l$。$l_1$定得大些,表示我们的检验更合格,这在对元件质量很高且供货渠道较多时可能是适当的;繁殖$l_1$定得小些,表示检验更宽松,这在对元件质量要求不是很高,或急需这些元件而供货渠道很少时,也可能采取。从统计上说,无论怎么定$l_1$,理论上都可能犯两种错误之一:一是元件平均寿命达到需求而被拒收了;一是元件平均寿命达不到需求而被接受了。这两种错误各有一定的规律,它们在很大程度上决定了接受准则$\overline{X}\ge l_1$中$l_1$的选择。

第二个问题与第一个问题是不同的,它不是要求对分布中的未知参数做出估计,而是要在两个决定中选择一个。这类问题称为假设检验问题,也是最重要的统计问题之一。


References

[1] 概率论与数理统计. 陈希孺编著. 合肥: 中国科学技术大学出版社, 2009.2(2019.8重印).