《概率论》的读书笔记之二

2017-01-14 fishedee 数学

6 大数定律

6.1 大数定律

6.1.1 依概率收敛

\(\{Y_n,n>=1\}\)为一随机变量序列,Y为一随机变量,若对任意的\(\epsilon>0\),都有

\[ \lim\limits_{n \to +\infty}P\{\rvert Y_n -Y\rvert>= \epsilon\}=0 \]

成立,则称\(\{Y_n,n>=1\}\)依概率收敛于Y,记为\(Y_n \stackrel{P}{\to}Y\),当\(n \to +\infty\)

注意,这里研究的是随机变量序列,而不是随机变量。从数字特征而已,随着\(Y_n\)的增大,\(E(Y_n)=Y\)\(D(Y_n)\)在缩小

6.1.2 马尔可夫不等式

若随机变量Y的k阶原点矩存在(k>=1),则对任意的\(\epsilon>0\),有

\[ P\{\lvert Y \rvert >= \epsilon\} <= \frac {E (\lvert Y \rvert^k)}{\epsilon^k} \]

特别地,对于Y为非负的随机变量,且它的k阶原点矩存在,则有

\[ P\{Y >= \epsilon\}<= \frac {E (Y ^k)}{\epsilon^k} \]

证明:

\[ P\{\lvert X \rvert >= \epsilon\}\\ = \int_{\lvert x \rvert >= \epsilon} f(x)dx\\ <= \int_{\lvert x \rvert >= \epsilon} \frac { {\lvert x \rvert}^k} {\epsilon^k}f(x)dx\\ <= \int_{-\infty}^{+\infty} \frac { {\lvert x \rvert}^k} {\epsilon^k}f(x)dx\\ = \frac {1} {\epsilon^k}\int_{-\infty}^{+\infty} { {\lvert x \rvert}^k}f(x)dx\\ = \frac {E (\lvert X \rvert^k)}{\epsilon^k} \]

所以得证。

注意,这个定理很容易被误用。例如,我们设X服从正态分布\(N(0,\sigma^2)\),根据公式,就得到

\[ P\{\lvert Y \rvert >= 1 \}<= \frac {E (Y ^k)}{1^k}= 0 \]

也就是说\(P\{\lvert Y \rvert >= 1 \}=0\),这显然是错误的。正态分布从\((-\infty,+\infty)\)都是有概率。问题在于,公式的右侧是绝对值的原点矩,而不是直接的原点矩,即

\[ P\{\lvert Y \rvert >= 1 \}<= \frac {E (\lvert Y \rvert ^k)}{1^k} \]

而公式的分子\(E (\lvert Y \rvert ^k)\)是不为0的。

所以,这个公式一般是用在非负的随机变量上,我们能从数学期望中反向算出大概的概率,十分神奇,例如

\[ P\{Y >= E(X)\}<= \frac {E (Y)}{E(X)}=1\\ P\{Y >= 2E(X)\}<= \frac {E (Y)}{2E(X)}=\frac 1 2\\ P\{Y >= 3E(X)\}<= \frac {E (Y)}{3E(X)}=\frac 1 3\\ \]

所以,我们从数学期望中就能算出任意分布(非负的随机变量)的概率上限了。

6.1.3 切比雪夫不等式

设X为一随机变量,期望和方差存在,分别为\(\mu,\sigma^2\),则对任意的$> 0 $,有

\[ P\{\lvert X-\mu \rvert>=\epsilon\}<= \frac {\sigma^2} {\epsilon^2} \]

证明:

设随机变量\(Y=X-\mu\),根据马尔可夫不等式,有:

\[ P\{\lvert Y \rvert >= \epsilon \} <= \frac { E(\lvert Y \rvert^2) } {\epsilon^2}\\ P\{\lvert X-\mu \rvert >= \epsilon \} <= \frac { E(\lvert X-\mu \rvert^2) } {\epsilon^2}\\ P\{\lvert X-\mu \rvert >= \epsilon \} <= \frac { E(( X-\mu )^2) } {\epsilon^2}\\ P\{\lvert X-\mu \rvert >= \epsilon \} <= \frac { D(X) } {\epsilon^2}\\ \]

所以得证

这个定理有更广泛的实用意义,对于任意的分布,只要知道它的期望和方差,就能反向推算它的概率,例如:

\[ P\{\lvert X-\mu \rvert>=\sigma\}<= \frac {\sigma^2} {\sigma^2}=1\\ P\{\lvert X-\mu \rvert>=2\sigma\}<= \frac {\sigma^2} {(2\sigma)^2}=\frac 1 4 \\ P\{\lvert X-\mu \rvert>=3\sigma\}<= \frac {\sigma^2} {(3\sigma)^2}=\frac 1 9 \\ \]

从定理可以看出,当X随着\(\mu\)线性远离时,概率是平方速度下降的

6.1.4 弱大数定律

\(\{Y_i,i>=1\}\)为一随机变量序列,若存在常数序列\(\{c_n,n>=1\}\),使得对任意的\(\epsilon>0\),有

\[ \lim\limits_{n \to +\infty}P\{\lvert \frac {1} {n} \sum\limits_{i=1}^{n} Y_i - c_n \rvert >= \epsilon\}=0 \]

成立,即当\(n \to +\infty\),有$ {n} _{i=1}^{n} Y_i - c_n 0 \(,则称随机变量序列\){Y_i,n>=1}$服从弱大数定律,简称服从大数定律。

这个定义是说,大数定律,是指随机变量序列的和概率趋向于某个整数。至于随机变量之间是不是相互独立的,并不重要。

6.1.5 马尔可夫大数定律

\(\{X_i,i>=1\}\)为一随机变量序列,若对所有\(i>=1\),方差\(D(X_i)\)都存在,并且

\[ \lim\limits_{n \to +\infty}\frac {1} {n^2} D(\sum\limits_{i=1}^{n}X_i) = 0 \]

则对任意的\(\epsilon>0\),有

\[ \lim\limits_{n \to +\infty}P\{\lvert \frac {1} {n} \sum\limits_{i=1}^{n} X_i - \frac 1 n \sum\limits_{i=1}^{n}E(X_i) \rvert >= \epsilon\}=0 \]

成立,即随机变量序列\(\{X_i,i>=1\}\)服从大数定律

证明:

设随机变量\(Y=\frac 1 n \sum\limits_{i=1}^{n}X_i\),则

\[ E(Y_n) = E(\frac 1 n \sum\limits_{i=1}^{n}X_i)=\frac 1 n[E(\sum\limits_{i=1}^{n}X_i)]=\frac 1 n\sum\limits_{i=1}^{n}E(X_i)\\ D(Y_n) = D(\frac 1 n \sum\limits_{i=1}^{n}X_i)=\frac 1 {n^2} D(\sum\limits_{i=1}^{n}X_i) \]

注意,\(D(Y_n)\)并没有完成拆出来,因为随机变量序列\(X_i\)可能不是互相独立的,对\(Y_n\)使用切比雪夫不等式,有:

\[ P\{\lvert Y_n - E(Y_n)\rvert>= \epsilon\}<= \frac {D(Y_n)} {\epsilon^2}\\ P\{\lvert \frac 1 n \sum\limits_{i=1}^{n}X_i - \frac 1 n\sum\limits_{i=1}^{n}E(X_i)\rvert>= \epsilon\}<= \frac {1} {\epsilon^2}\frac 1 {n^2} D(\sum\limits_{i=1}^{n}X_i)\\ \]

\(\lim\limits_{n \to +\infty}\frac {1} {n^2} D(\sum\limits_{i=1}^{n}X_i) = 0\),且\(\epsilon\)是在每一次任取的时是定值,因此

\[ \lim\limits_{n \to +\infty} P\{\lvert \frac 1 n \sum\limits_{i=1}^{n}X_i - \frac 1 n\sum\limits_{i=1}^{n}E(X_i)\rvert>= \epsilon\}<= 0,n\to +\infty \]

所以得证

这个定理是说,对于任意的随机变量序列,无论随机变量之间是否独立,方差是否为无穷大,或它们之间的协方差有多大,只要满足

\[ \lim\limits_{n \to +\infty}\frac {1} {n^2} D(\sum\limits_{i=1}^{n}X_i) = 0 \]

则随机变量序列服从大数定律

6.1.6 切比雪夫大数定律

\(\{X_i,i>=1\}\)是相互独立的随机变量序列,若存在常数C,使得

\[ D(X_i)<=C,i=1,2,\cdots \]

即,所有\(X_i\)的方差都有共同的上界C,则随机变量序列\(\{X_i,i>=1\}\)服从大数定律

证明:

\[ \frac {1} {n^2} D(\sum\limits_{i=1}^{n}X_i) = \frac {1} {n^2} \sum\limits_{i=1}^{n} D(X_i)<= \frac {1} {n^2}nC= \frac {C} {n} \]

因此

\[ \lim\limits_{n \to +\infty }\frac {1} {n^2} D(\sum\limits_{i=1}^{n}X_i) = 0 \]

故满足马尔可夫大数定律,故得证。

这个大数定律是特殊情况下的大数定律,对于相互独立的任意分布组合(即使各分布不一样),只要各分布的方差有上限,则其随机变量之和总是概率收敛。

6.1.7 贝努里大数定律

\(n_A\)为n重贝努里试验中事件A发生的次数,p为事件A在每次试验中发生的概率,即\(P(A)=p\),则对任意的\(\epsilon>0\),有

\[ \lim\limits_{n \to +\infty}P\{\lvert \frac {n_A} {n} - p\rvert>= \epsilon\}=0 \]

证明相当简单,直接将切比雪夫大数定律中每个分布都换成二项分布就可以了,注意二项分布的方差都是有限的,所以符合切比雪夫大数定律,因此得证。

这个大数定律就是我们一般直观意义的大数定律,如果我们不知道这个事情的概率,则将这个事情不断重复取无穷次,频率的稳定值就是概率了。没想到,连这个都能被数学严格证明。。。。

然而真正的大数定律的要求比这个要宽泛得多,具体看马尔可夫大数定律。

6.1.8 辛钦大数定律

\(\{X_i,i>=1\}\)为独立同分布的随机变量序列,且期望存在,记为\(\mu\),则对任意的\(\epsilon>0\),有

\[ \lim\limits_{n \to +\infty}P\{\lvert \frac {1} {n} \sum\limits_{i=1}^{n} X_i - \mu \rvert>= \epsilon\}=0 \]

则随机变量序列\(\{X_i,i>=1\}\)也服从大数定律

证明略

注意,这个大数定律的证明不能直接套马尔可夫大数定律,因为马尔可夫大数定律要求方差有限,但是该大数定律只要求期望有限就可以了,方差可能是无限的。这个定理要比马尔可夫大数定律有更广泛的应用意义,只要独立同分布的随机变量序列有数学期望,则它就满足大数定律。

6.2 中心极限定理

6.2.1 林德伯-格勒维中心极限定理

\(\{X_i,i>=1\}\)为独立同分布的随机变量序列,且期望\(E(X_i)=\mu\)和方差\(D(X_i)=\sigma^2\)存在(\(\sigma>0\)),则对任意的\(x \in R\),有

\[ \lim\limits_{n \to +\infty} P\left\{ \frac {\sum\limits_{i=1}^{n} X_i - E(\sum\limits_{i=1}^{n}X_i)}{\sqrt{D(\sum\limits_{i=1}^{n}X_i)} }<= x\right\}\\ =\lim\limits_{n \to +\infty} P\left\{ \frac {\sum\limits_{i=1}^{n} X_i - n\mu}{\sqrt{n}\sigma}<= x\right\}\\ =\frac {1} {\sqrt{2\pi} }\int_{-\infty}^{x} e^{-\frac {t^2} {2} }dt\\ = \Phi(x)\\ \]

也就是说,当n充分大时\(\frac {\sum\limits_{i=1}^{n} X_i - n\mu}{\sqrt{n}\sigma}\)近似地服从标准正态分布\(N(0,1)\)

证明略

这个定理是独立同分布方差有限的大数定律的深入,其不仅指出了独立同分布的随机变量序列收敛于数学期望,而且其与数学期望差值的概率服从正态分布!!!

6.2.2 德莫弗-拉普拉斯中心极限定理

\(n_{A}\)为在n重贝努里试验中事件A发生的次数,p为事件A在每次试验中发生的概率(0<p<1),即\(P(A)=p\),则对任意的\(x \in R\),有

\[ \lim\limits_{n \to +\infty}P\{\frac {n_A-np}{\sqrt{np(1-p)} }<=x\}\\ =\frac {1} {\sqrt{2\pi} }\int_{-\infty}^{x} e^{-\frac {t^2} {2} }dt\\ = \Phi(x)\\ \]

也就是说,当n充分大时,二项分布\(n_A \sim B(n,p)\)近似地服从正态分布\(N(np,np(1-p))\)

证明的方法很简单,直接将二项分布套入林德伯-格勒维中心极限定理就可以了。

由于正态分布只能计算区域的概率,不能计算单一点的概率。所以当n充分大时,计算\(n_A\)的区域概率,我们用正态分布来近似,计算单点的概率,我们用泊松分布来近似。

6.2.3 李推普诺夫中心极限定理

\(\{X_i,i>=1\}\)为相互独立的随机变量序列,其期望\(E(X_i)=\mu_i\)和方差\(D(X_i)=\sigma^2\)存在,若存在\(\epsilon>0\),使得

\[ \lim\limits_{n \to +\infty}= \frac {1} {B_n^{2+\epsilon} } \sum\limits_{i=1}^{n} E{\lvert X_i-\mu_i\rvert}^{2+\epsilon}=0 \]

其中\(B_n^2=\sum\limits_{i=1}^{n}\sigma_i^2\),那么对于任意的\(x \in R\),有

\[ \lim\limits_{n \to +\infty} P\{\frac 1 {B_n}\sum\limits_{i=1}^{n} (X_i -\mu_i)<=x\}\\ =\frac {1} {\sqrt{2\pi} }\int_{-\infty}^{x} e^{-\frac {t^2} {2} }dt\\ = \Phi(x)\\ \]

证明略

这个定理将林德伯-格勒维中心极限定理进行推广,使得对于任意的独立但不同分布随机变量序列,其期望差值依然服从正态分布,用得比较少一点。

7 统计量

7.1 随机样本与统计量

7.1.1 随机样本

设总体X时具有分布函数\(F(\cdot)\)的随机变量,\(X_1,\cdots,X_n\)是来自总体X的随机样本。若满足

  • \(X_1,X_2,\cdots,X_n\)是相互独立的随机变量
  • 每一\(X_i\)与总体X有相同的分布函数

则称\(X_1,\cdots,X_n\)为取自总体X的简单随机样本。

注意,在这里,抽样被看成了一个确定的数学问题,每次抽样一个数字就是观察一个随机变量的数值,而这些随机变量都服从同一分布。所以,抽样问题被看成是多个随机变量的组合函数问题。

7.1.2 统计量

\(X_1,X_2,\cdots,X_n\)是来自总体X的一个样本,\(g(X_1,X_2,\cdots,X_n)\)是样本\(X_1,X_2,\cdots,X_n\)的函数,若g中不含未知参数,则称\(g(X_1,X_2,\cdots,X_n)\)是一统计量。

7.1.3 样本平均值

\[ \overline{X} = \frac 1 n \sum\limits_{i=1}^{n}X_i \]

样本平均值

7.1.4 样本方差

\[ S^2 = \frac 1 {n-1} \sum\limits_{i=1}^{n}(X_i-\overline{X})^2\\ = \frac 1 {n-1} \sum\limits_{i=1}^{n}(X_i^2-2X_i\overline{X}+\overline{X}^2)\\ =\frac 1 {n-1} (\sum\limits_{i=1}^{n}X_i^2-\sum\limits_{i=1}^{n}2X_i\overline{X}+\sum\limits_{i=1}^{n}\overline{X}^2)\\ = \frac 1 {n-1} (\sum\limits_{i=1}^{n}X_i^2-2n\overline{X}^2+n\overline{X}^2)\\ = \frac 1 {n-1} (\sum\limits_{i=1}^{n}X_i^2-n\overline{X}^2)\\ \]

样本方差,注意是除以n-1,而不是n

7.1.5 样本标准差

\[ S = \sqrt{S^2} =\sqrt{\frac 1 {n-1} \sum\limits_{i=1}^{n}(X_i-\overline{X})^2} \]

样本标准差

7.1.6 样本k阶原点矩

\[ A_k = \frac 1 n \sum\limits_{i=1}^{n} X_i^k \]

样本k阶原点矩

7.1.7 样本k阶中心矩

\[ B_k = \frac 1 n \sum\limits_{i=1}^{n} (X_i-\overline{X})^k \]

样本k阶中心矩,注意不同随机变量,样本的\(B_k\neq S^2\),因为除以的分母不同,一个是n-1,另外一个是n

7.2 抽样与分布

7.2.1 \(\chi^2\)分布

\(X_1,X_2,\cdots,X_n\)为独立同分布的随机变量,且都服从N(0,1),记

\[ Y=X_1^2+X_2^2+\cdots+X_n^2 \]

则称Y服从自由度为n的\(\chi^2\)的分布,记\(Y \sim \chi^2\)\(\chi^2\)分布的概率密度为

\[ f(x) = \begin{cases} \frac {1} {2^{n/2}\Gamma(n/2)}x^{n/2-1}e^{-x/2},x>0\\ 0,其他 \end{cases} \]

并且,\(\chi^2\)的分布有以下性质:

  • \(Y_1 \sim \chi^2(m),Y_2 \sim \chi^2(n)\),且两者相互独立,则\(Y_1+Y_2\sim \chi^2(m+n)\)
  • \(Y \sim \chi^2(n)\),则\(E(Y)=n,D(Y)=2n\)
  • 当n充分大时,\(\chi^2\)分布的上分位点近似为\(\chi^2_{\alpha}(n) \sim \frac {1} {2}(z_{\alpha}+\sqrt{2n-1})^2\),其中\(z_{\alpha}\)是标准正态分布的上侧正分位点

证明略。

我们要记住多个标准正态分布相互独立的随机变量的平方和服从\(\chi^2\)分布即可,还有就是\(\chi^2\)分布的期望和方差。

7.2.2 t分布

\(X\sim N(0,1),Y \sim \chi^2(n)\),且X,Y相互独立,则随机变量

\[ t = \frac {X} {\sqrt{Y/n} } \]

服从自由度为n的t分布,记\(t \sim t(n)\)。t分布又称为学生氏分布。t(n)分布的概率密度函数为:

\[ f_t(x) = \frac {\Gamma[(n+1)/2]} {\sqrt{\pi n}\Gamma(n/2)}(1+ \frac {x^2} {n})^{-(n+1)/2} \]

并且,t分布具有以下的性质

  • t分布是偶函数,关于y轴对称
  • 当n足够大时,t分布近似于标准正态分布N(0,1)
  • t分布分为点名为\(t_{\alpha}(n)\)

证明略。

我们要记住标准正态分布除以跟号的\(\chi^2\)分布就是t分布了

7.2.3 F分布

\(U \sim \chi^2(n_1),V \sim \chi^2(n_2)\),且U,V相互独立,则称随机变量

\[ F=\frac {U/n_1} {V/n_2} \]

服从自由度为\((n_1,n_2)\)的F分布,记为\(F \sim F(n_1,n_2)\).F分布的概率密度函数为

\[ f_F(x) = \frac {\Gamma[(n_1+n_2)/2(n_1/n_2)^{n_1/2}x^{(n_1/2-1)}]}{\Gamma(n_1/2)\Gamma(n_2/2)[1+(n_1x/n_2)]^{(n_1+n_2)/2} },x>0 \]

F分布的性质为:

  • \(F \sim F(n_1,n_2)\),则\(\frac 1 F \sim F(n_2,n_1)\)
  • 如果\(X \sim t(n)\),则\(x^2\sim F(1,n)\)
  • F的上份位点为\(F_{\alpha}(n_1,n_2)\),且有\(F_{1-\alpha}(n_1,n_2)=\frac {1}{F_{\alpha}(n_2,n_1)}\)

证明略。

我们要记住\(\chi^2\)分布相除就是F分布,且t分布的平方也是F分布。

7.3 正态总体统计量的分布

7.3.1 样本均值分布

\(X_1,X_2,\cdots,X_n\)为来自正态总体\(N(\mu,\sigma^2)\)的简单随机样本,\(\overline{X}\)是样本均值,则有

\[ \overline{X} \sim N(\mu,\frac {\sigma^2} {n}) \]

证明:

因为正态随机变量的线性组合仍然是正态随机变量,设\(Y = \frac {1} {n} \sum\limits_{i=1}^{n} X_i\),则

\[ E(Y) = E(\frac {1} {n} \sum\limits_{i=1}^{n} X_i)=\frac {1} {n}\sum\limits_{i=1}^{n}E(X_i)=\frac {1} {n}\sum\limits_{i=1}^{n}\mu =\mu\\ D(Y) = D(\frac {1} {n} \sum\limits_{i=1}^{n} X_i)= \frac {1} {n^2} \sum\limits_{i=1}^{n}D(X_i)=\frac {1} {n^2} \sum\limits_{i=1}^{n}\sigma^2=\frac {\sigma^2} {n} \]

因此Y服从\(N(\mu,\frac {\sigma^2} {n})\),故得证

这个定理用来描述样本均值的测量值与总体期望真值之间分布,但是需要知道总体的方差真值。

7.3.2 样本方差分布

\(X_1,X_2,\cdots,X_n\)为来自正态总体\(N(\mu,\sigma^2)\)的简单随机样本,\(\overline{X}\)是样本均值,\(S^2\)时样本方差,则有

\[ \frac {(n-1)S^2} {\sigma^2} \sim \chi^2(n-1) \]

\(\overline{X}\)\(S^2\)相互独立

证明略

这个定理用来描述样本方差的测量值与总体方差真值之间分布,这个实用意义比较大,是计算样本方差把握的依据。

7.3.3 样本均值与样本方差分布

\(X_1,X_2,\cdots,X_n\)为来自正态总体\(N(\mu,\sigma^2)\)的简单随机样本,\(\overline{X}\)是样本均值,\(S^2\)是样本方差,则有

\[ \frac {\overline{X}-\mu} {S/\sqrt{n} } \sim t(n-1) \]

证明:

\[ \frac {\overline{X}-\mu} {S/\sqrt{n} } \\ = \frac {\frac {\overline{X}-\mu} {\sqrt{\sigma^2/n} } }{\frac {S/\sqrt{n} }{\sqrt{\sigma^2/n} } }{}\\ = \frac {\frac {\overline{X}-\mu} {\sqrt{\sigma^2/n} } }{\sqrt{\frac {S^2}{\sigma^2} } }\\ = \frac {\frac {\overline{X}-\mu} {\sqrt{\sigma^2/n} } }{\frac {1} {\sqrt{n-1} }\sqrt{\frac {(n-1)S^2}{\sigma^2} } }\\ \sim \frac {N(0,1)} {\frac {1} {\sqrt{n-1} }\sqrt{\chi^2(n-1)}}\\ \sim t(n-1) \]

因此得证

这个定理应用意义更大,它在只知道\(S^2\)\(\overline{X}\),而不需要知道总体的\(\sigma^2\)的真值情况下,准确知道总体的\(\mu\)真值分布

7.3.4 双样本方差比例与均值差值分布

\(X_1,X_2,\cdots,X_{n_1}\)\(Y_1,Y_2,\cdots,Y_{n_2}\)分别为来自正态总体\(N(\mu_1,\sigma_1^2)\)\(N(\mu_2,\sigma_2^2)\)的简单随机样本,并且两个总体相互独立。记\(\overline{X},\overline{Y}\)分别是两个样本的样本均值,\(S_1^2,S_2^2\)分别是两个样本的方差,则有

\[ \frac {S_1^2/\sigma_1^1} {S_2^2/\sigma_2^1}\sim F(n_1-1,n_2-1) \]

并且,当\(\sigma_1^2=\sigma_2^2=\sigma^2\)

\[ \frac {(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\frac {1} {n_1}+\frac {1}{n_2}}} \sim t(n_1+n_2-2) \]

其中

\[ S_w^2 = \frac {(n_1-1)S_1^2+(n_2-1)S_2^2} {n_1+n_2-2}\\ S_w = \sqrt{S_w^2} \]

证明直接套样本方差分布公式就可以了

这个定理对双样本方差比例分布进行了描述,一般 用来确定双样本的方差比例是否在可控的范围中。第二条公式描述了当双样本方差相同时,其样本均值差值的分布,一般用来确定双样本的期望差值是否在可控的范围中。

8 参数估计

8.1 点估计

8.1.1 参数估计

设总体X的分布函数为\(F(x,\theta)\)\(\theta\)是待估参数,\(X_1,X_2,\cdots,X_n\)是X的一个样本。点估计问题就是要构造恰当的一个统计量\(\hat{\theta}(X_1,X_2,\cdots,X_n)\),用来估计未知参数\(\theta\),我们称\(\hat{\theta}(X_1,X_2,\cdots,X_n)\)\(\theta\)的估计量。

参数估计就是在已知样本服从的分布类型情况下,求分布的参数。例如已经样本服从均匀分布,怎么算出样本的参数b和a。

8.1.2 矩法估计

\(\theta_1,\theta_2,\cdots,\theta_m\)是总体X的待估参数,并假定X的前m阶矩存在。下面我们给出利用矩法求参数估计量的基本步骤

  • 求总体的X的前m阶矩\(\mu_1,\mu_2,\cdots,\mu_m\),一般地,这些矩可以写成待估参数\(\theta_1,\theta_2,\cdots,\theta_m\)的函数形式,记为

\[ \begin{cases} \mu_1=E(X) = g_1(\theta_1,\theta_2,\cdots,\theta_m)\\ \mu_2=E(X^2) = g_2(\theta_1,\theta_2,\cdots,\theta_m)\\ \cdots\\ \mu_m=E(X^m) = g_m(\theta_1,\theta_2,\cdots,\theta_m)\\ \end{cases} \]

  • 由方程组求得各参数关于前m阶矩\(\mu_1,\mu_2,\cdots,\mu_m\)的函数表达式,记为

\[ \theta_m = h_k(\mu_1,\mu_2,\cdots,\mu_m),k=1,2,\cdots,m \]

  • 根据矩法思想,以\(A_i\)代替\(\mu_i,i=1,2,\cdots,m\)即可得个参数的点估计量为

\[ \hat{\theta_k} = h_k(A_1,A_2,\cdots,A_m),k=1,2,\cdots,m \]

我们称上述求得\(\hat{\theta_k}\)为参数\(\theta_k\)的矩估计。

这个方法简单直接,有效性的根本原因是在不断试验后,样本矩趋向于总体矩,而总体矩由参数来决定,故可以求得分布参数出来。但这种方法的问题在于,需要大量的样本,并且,矩估计量不具有唯一性。例如,对于泊松分布而言,\(\lambda\)既是期望的函数,也是方差的函数。当我们获得样本的均值与方差时,我们究竟用哪个来算\(\lambda\)呢。

8.1.3 极大似然估计

设总体X为离散型,其分布律为\(P\{X=x\}=p(x;\theta),\theta \in \Theta\)是未知的待估参数,\(\Theta\)为参数取值的范围,即参数空间\(X_1,X_2,\cdots,X_n\)是来自总体X的样本,并设置\(x_1,x_2,\cdots,x_n\)是已经得到的样本观察值。则样本\(X_1,x_2,\cdots,X_n\)取得观察值\(x_1,x_2,\cdots,x_n\)的概率为

\[ P\{X_1=x_1,X_2=x_2,\cdots,X_n=x_n\}=\prod_{i=1}^{n}P\{X_i=x_i\}=\prod_{i=1}^{n}p(x_i;\theta) \]

它是参数\(\theta\)的函数,记

\[ L(\theta)=L(\theta;x_1,x_2,\cdots,x_n)=\prod_{i=1}^{n}p(x_i;\theta) \]

我们称\(L(\theta)\)为似然函数,给予极大似然法的基本思想,我们应选取\(\theta\)的估计值\(\hat{\theta}\),使得\(L(\theta)\)取得最大。于是\(\theta\)满足

\[ L(\hat{\theta})=L(\hat{\theta};x_1,x_2,\cdots,x_n)=\max_{\theta \in \Theta}L(\theta;x_1,x_2,\cdots,_xn) \]

由此获得的\(\hat{\theta}=\hat{\theta}(x_1,x_2,\cdots,x_n)\)称为参数\(\theta\)的极大似然估计量,相应的统计量\(\hat{theta}(X_1,X_2,\cdots,X_n)\)\(\theta\)的极大似然估计量,简称MLE。

连续型随机变量的极大似然法与之类似,但要注意似然函数为概率密度的乘积,而不是概率的乘积,既

\[ L(\theta)=L(\theta:x_1,x_2,\cdots,x_n)=\prod_{i=1}^{n}f(x_i;\theta) \]

极大似然法的方法比一般情况下比矩法更好,其算出的点估计值具有唯一性而且可信度更高。但是极大似然性并没有推断出

8.1.4 贝叶斯估计

根据历史资料,我们有关参数\(\theta\)的一些有用信息。这种信息就是先验信息,这些先验信息告诉我们,参数\(\theta\)不是永远固定在一个值上,而是一个不能被准确预知的随机变量。\(\theta\)的分布称为先验分布,其概率密度函数用\(\pi(\theta),\theta \in \Theta\)来描述。因此,样本\(X_1,X_2,\cdots,X_n\)和参数\(\theta\)的联合密度函数为:

\[ f(x_1,x_2,\cdots,x_n,\theta)=f(x_1,x_2,\cdots,x_n\vert \theta)\pi(\theta) =\prod_{i=1}^{n}f(x_i \vert \theta) \pi(\theta) \]

当样本\(X_1,X_2,\cdots,X_n\)抽出以后,因为,\(\theta\)的分布为

\[ \pi(\theta \vert x_1 ,x_2,\cdots x_n) = \frac {f(x_1,x_2,\cdots,x_n,\theta)}{f(x_1,x_2,\cdots,x_n)}=\frac {f(x_1,x_2,\cdots,x_n \vert \theta)\pi(\theta)} {\int_{\Theta}f(x_1,x_2,\cdots,x_n \vert \theta)\pi(\theta)} \]

这就是贝叶斯的概率密度函数形式,并称\(\pi(\theta \vert x_1,x_2,\cdots,x_n)\)\(\theta\)的后验分布。因此参数\(\theta\)的估计为:

\[ \hat{\theta} = E(\theta \vert X_1,X_2,\cdots,X_n) = \int_{\Theta}\theta \pi(x_1,x_2,\cdots,x_n)d\theta \]

为参数\(\theta\)的估计,简称为\(\theta\)的贝叶斯估计。

这个方法就是贝叶斯估计,能在增加先验知识的基础上提高整个预测的概率。

8.1.5 总结

例如,在已知群里发出了一个随机红包,红包里面接收数量为10个,并且现在已经打开了前5个,问发放红包的总金额是多少?

设红包总金额为N,那么显然\(E(10X)=N\),也就是每个红包服从\(U(0,N/10)\)的均匀分布

  • 矩法,前5个的均值就是总体的均值,也就是\(\overline{X}=E(X)\),从而算出整体分布
  • 极大似然法,在知道前5个红包的情况下,要让概率密度乘积最大,X应该满足\(U(0,\max(x_1,x_2,\cdots,x_5))\)的分布,从而算出整体分布
  • 贝叶斯估计法,我们结合平时发红包的金额,大多集中在5元,10元,少量在100元以上的先验概率下,算出\(f(\theta \vert X_1,X_2,\cdots,X_n)\)的分布,从而获得一个范围把握知道这个红包大概为多大。

总体来说,第三种最靠谱,但是需要知道的先验知识也是最多的。而在无任何先验知识的情况下,极大似然法更为靠谱。

8.2 点估计评价

点估计中的\(\hat{\theta}\)是由样本的\(X_1,X_2,\cdots,X_n\)的样本随机变量函数得出的,而每一个\(X\)则是由真值\(\theta\)来决定的,因此,我们可以得到\(\hat{\theta}\)\(\theta\)之间的概率分布关系。因此我们可以通过评判\(\hat{\theta}\)\(\theta\)的关系来评价估计量。

8.2.1 无偏性准则

\(\theta \in \Theta\)是总体X的待估参数,\(X_1,X_2,\cdots,X_n\)是来自总体X的样本。若估计量\(\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)\)的数学期望存在,满足

\[ E(\hat{\theta})=\theta,\forall \theta \in \Theta 成立 \]

则称\(\hat{\theta}\)\(\theta\)的无偏统计量或无偏统计。

\(E(\hat{\theta})\neq \theta\),则称\(\lvert E(\hat{\theta})-\theta\rvert\)为估计量\(\hat{\theta}\)的偏差

\(E(\hat{\theta}) \neq \theta\),但满足\(\lim\limits_{n \to +\infty}E(\hat{\theta})=\theta\),则称\(\hat{\theta}\)\(\theta\)的渐近无偏统计。

无偏统计描述的是\(\lvert E(\hat{\theta})-\theta\rvert\),估计量期望与真值的差值。

8.2.2 有效性准则

\(\hat{\theta_1}=\hat{\theta_1}(X_1,X_2,\cdots,X_n)\)\(\hat{\theta_2}=\hat{\theta_2}(X_1,X_2,\cdots,X_n)\)都是参数\(\theta\)的无偏轨迹,若\(\forall \theta \in \Theta,D_{\theta}(\hat{\theta_1})<= D_{\theta}(\hat{\theta_2})\),切知识有一个\(\theta \in \Theta\)使不等式成立,则称\(\hat{\theta_1}\)\(\hat{\theta_2}\)有效。

有效性准则是在无偏的前提下,对估计量的进一步评判。例如,两个估计量\(\hat{\theta_1}\)\(\hat{\theta_2}\)都是无偏估计,但是\(\hat{\theta_1}\)的方差更小,意味着更大的可能接近于真值\(\theta\),所以我们认为\(\hat{\theta_1}\)更有效。

可以看出,有效性准则是无偏估计的补充准则。

8.2.3 均方误差准则

\(\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)\)是总体参数\(\theta\)的估计量,称\(E[(\hat{\theta}-\theta)^2]\)是估计量\(\hat{\theta}\)的均方误差,记为\(Mse(\hat{\theta})\)

均方误差描述的是\(E[(\hat{\theta}-\theta)^2]\),注意是估计量与真值的差值平方的期望,而不是估计量期望后与真值的差值,注意跟无偏性的不同。这个准则比无偏+有效性的结合准则更有实用意义。

8.2.4 相合性准则

\(\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)\)是总体参数\(\theta\)的估计量,若对任意的\(\epsilon>0\),有

\[ \lim\limits_{n \to \infty} P\{\lvert \hat{\theta_n}-\theta\rvert< \epsilon\}=1 \]

\(\hat{\theta}\)依概率收敛于\(\theta\),则称\(\hat{\theta_n}\)\(\theta\)的相合估计量,并记为\(\hat{\theta_n} \stackrel{P}{\to} \theta\)

这个相合性一般都成立,没啥好说的。

8.3 正态总体的区间估计

8.3.1 置信区间

\(\theta \in \Theta\)是总体X的未知参数,\(X_1,X_2,\cdots,X_n\)是来自总体X的样本,统计量\(\hat{\theta_L}=\hat{\theta_L}(X_1,X_2,\cdots,X_n)\)\(\hat{\theta_U}=\hat{\theta_U}(X_1,X_2,\cdots,X_n)\)满足\(\hat{\theta_L}<\hat{\theta_U}\),且对给定的\(\alpha \in (0,1)\)和任意的\(\theta \in \Theta\)

\[ P\{\hat{\theta_L}< \theta < \hat{\theta_U}\}>= 1 - \alpha \]

则称随机区间\((\hat{\theta_L},\hat{\theta_U})\)是参数\(\theta\)的置信水平为\(1-\alpha\)的置信区间,\(\hat{\theta_L}\)\(\hat{\theta_U}\)分别称为\(\theta\)的置信水平为\(1-\alpha\)的置信区间,\(\hat{\theta_L}\)\(\hat{\theta_U}\)分别称为\(\theta\)的置信水平的\(1-\alpha\)的双侧置信下限和置信上限

8.3.2 奈曼法则

当样本容量n给定时,置信水平和精确度是相互制约的。y因此,奈曼建议,在保证置信水平达到一定的前提下,尽可能提高精确度。

8.3.3 枢轴量

设总体X有概率密度\(f(x;\theta)\),其中\(\theta\)是待估的未知参数,并设\(X_1,X_2,\cdots,X_n\)是来自总体X的样本,称样本和参数的函数\(G(X_1,X_2,\cdots,X_n;\theta)\)为枢轴量,如果\(G(X_1,X_2,\cdots,X_n;\theta)\)的分布不依赖于参数\(\theta\)且完全已知。

8.3.4 均值的区间估计

如果\(\sigma^2\)已知,则枢轴量为:

\[ \frac {\overline{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1) \]

如果\(\sigma^2\)未知,则枢轴量为:

\[ \frac {\overline{X}-\mu}{S/\sqrt{n}} \sim t(n-1) \]

8.3.5 方差的区间估计

枢轴量为:

\[ \frac {(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) \]

8.3.6 均值差值的区间估计

当两总体的方差\(\sigma_1^2\)\(\sigma_2^2\)已知,枢轴量为:

\[ \overline{X} - \overline{Y} \sim N(\mu_1,\mu_2,\frac {\sigma_1^2} {n_1}+ \frac {\sigma_2^2}{n_2}) \]

当两总体的方差\(\sigma_1^2\)\(\sigma_2^2\)相同且未知,枢轴量为:

\[ \frac {\overline{X}-\overline{Y}-(\mu_1-\mu_2)} {S_w\sqrt{ \frac {1}{n_1} + \frac {1}{n_2}}} \sim t(n_1+n_2-2)\\ S_w^2 = \frac {(n_1-1)S_!^2+(n_2-1)S_2^2}{n_1+n_2-2} \]

当两总体的方差\(\sigma_1^2\)\(\sigma_2^2\)不相同且未知,枢轴量为:

\[ \frac {\overline{X}-\overline{Y}-(\mu_1-\mu_2)} {\sqrt{ \frac {S_1^2}{n_1} + \frac {S_2^2}{n_2}}} \sim N(0,1) \]

8.3.7 方差比值的区间估计

枢轴量为:

\[ \frac {S_1^2/\sigma_1^2} {S_2^2/\sigma_2^2} \sim F(n_1-1,n_2-1) \]

8.4 非正态总体的区间估计

8.4.1 0-1分布均值的区间估计

根据中心极限定理,枢轴量为:

\[ \frac {n\overline{X}-np} {\sqrt{np(1-p)}} \sim N(0,1) \]

8.4.2 其他分布均值的区间估计

根据中心极限定理,当\(\sigma\)已知时,枢轴量为:

\[ \frac {\sum\limits_{i=1}^{n}X_i-n\mu} {\sqrt{n}\sigma} \sim N(0,1) \]

\(\sigma\)未知时,用\(S\)来代替,则

\[ \frac {\sum\limits_{i=1}^{n}X_i-n\mu} {\sqrt{n}S} \sim N(0,1) \]

9 假设检验

9.1 假设检验

9.1.1 假设

统计假设简称为建设,通常用字母H表示一般我们同时提出两个完成相反的假设,习惯上把其中的一个称为原假设或零假设,用\(H_0\)表示,把另一个假设称为对立假设或备择假设,用\(H_1\)表示。

9.1.2 检验统计量

一般地,在假设检验问题中,若寻找道某个统计量,其取值大小和原假设\(H_0\)是否成立有密切联系时,我们将之称为该假设检验问题的检验统计量,而对英语拒绝原假设\(H_0\)时,样本值的范围称为拒绝域,记为W,相应的W的补域\(\overline{X}\)称为接受域

9.1.3 奈曼皮尔逊原则

假设判定的两类错误

  • 弃真错误,\(\alpha\)=P(第I类错误)=P(拒绝\(H_0 \vert H_0\)是真实的)
  • 取伪错误,\(\beta\)=P(第II类错误)=P(接受\(H_0 \vert H_0\)是错误的)

奈曼和皮尔逊提出,首先控制犯I类错误的概率,即选定一个常数\(\alpha \in (0,1)\),要求检验犯第I类错误的概率不超过\(\alpha\),然后在满足这个约束条件的检验中,再寻找检验,实用犯第II类错误的概率尽可能小。这就是假设检验理论中的奈曼-皮尔逊原则

9.1.4 统计显著性

当原假设\(H_0\)为真时,检验统计量取比观察到的结果更为极端的数值的概率,称为\(P_\)

9.1.5 总结

对于所有的假设检验问题,期望假设,方差假设,分布假设等问题,原理都是这样的

  • 确定假设问题,以及假设的接受域与拒绝域,这两个域都是关于C的函数,这个C就是决定什么时候应该接受,什么时候应该拒绝的关键。这是一个取分布的问题。
  • 确定两类错误的概率,弃真概率与取伪概率,这两个概率都是关于C的函数。这是一个求概率的问题。
  • 然后使用奈曼和皮尔逊原则,在指定的显著水平,让弃真概率(C的函数)少于\(\alpha\),同时让取伪概率最低。这是一个不等式条件下求极值的问题。

例如,

假设问题为对于已知正态总体,求是否成立

第一步,确定假设和拒绝域

\[ H_0:\mu=\mu_0,H_1:\mu\neq \mu_0,并且已知\sigma \]

显然拒绝域为:

\[ \lvert \overline{X}-\mu_0 \rvert >=C \]

第二步,求弃真概率

\[ P(拒绝H_0\vert H_0为真)\\ = P(\lvert \overline{X} - \mu_0 \rvert >= C \vert \mu = \mu_0)\\ 又\frac {\overline{X} - \mu}{\sigma/\sqrt{n}}符合N(0,1)分布\\ 则= P(\lvert \overline{X} - \mu_0 \rvert >= C \vert \mu = \mu_0)\\ = P(\lvert \overline{X} - \mu \rvert >= C \vert \mu = \mu_0)\\ = P(\frac {\lvert \overline{X} - \mu\rvert}{\sigma/\sqrt{n}} >= \frac {C}{\sigma/\sqrt{n}} \vert \mu = \mu_0)\\ =2(1-\Phi(\frac {C}{\sigma/\sqrt{n}})) \]

第三步,奈曼和皮尔逊原则

\[ P(拒绝H_0\vert H_0为真)<= \alpha\\ 2(1-\Phi(\frac {C}{\sigma/\sqrt{n}}))<= \alpha\\ \Phi(\frac {C}{\sigma/\sqrt{n}})>= 1- \frac {\alpha} {2}\\ \frac {C}{\sigma/\sqrt{n}} >= Z_{1-(1-\frac {\alpha} {2})}\\ \frac {C}{\sigma/\sqrt{n}} >= Z_{\frac {\alpha} {2}}\\ C>=Z_{\frac {\alpha} {2}}\sigma/\sqrt{n} \]

所以,求得关于C的不等式,显然C在越小时,取伪概率越低,因此

\[ C = Z_{\frac {\alpha} {2}}\sigma/\sqrt{n} \]

同理,对于已知正态总体,求是否成立

第一步,确定假设和拒绝域

\[ H_0:\mu>=\mu_0,H_1:\mu < \mu_0,并且已知\sigma \]

显然拒绝域为:

\[ \overline{X}-\mu_0 <= C \]

第二步,求弃真概率

\[ P(拒绝H_0\vert H_0为真)\\ = P(\overline{X} - \mu_0 <= C \vert \mu >= \mu_0)\\ 又\frac {\overline{X} - \mu}{\sigma/\sqrt{n}}符合N(0,1)分布\\ 则= P(\overline{X} - \mu_0 <= C \vert \mu >= \mu_0)\\ = P(\frac {\overline{X} - \mu_0}{\sigma/\sqrt{n}} <= \frac {C}{\sigma/\sqrt{n}} \vert \mu >= \mu_0)\\ = P(\frac {\overline{X} - \mu}{\sigma/\sqrt{n}}+\frac {\mu - \mu_0}{\sigma/\sqrt{n}} <= \frac {C}{\sigma/\sqrt{n}} \vert \mu >= \mu_0)\\ = P(\frac {\overline{X} - \mu}{\sigma/\sqrt{n}}<= \frac {C}{\sigma/\sqrt{n}} -\frac {\mu - \mu_0}{\sigma/\sqrt{n}}\vert \mu >= \mu_0)\\ =\Phi(\frac {C}{\sigma/\sqrt{n}}-\frac {\mu - \mu_0}{\sigma/\sqrt{n}}),其中\mu>\mu_0 \]

第三步,奈曼和皮尔逊原则

\[ P(拒绝H_0\vert H_0为真)<= \alpha\\ \Phi(\frac {C}{\sigma/\sqrt{n}}-\frac {\mu - \mu_0}{\sigma/\sqrt{n}})<= \alpha,其中\mu>\mu_0\\ 又\Phi(\frac {C}{\sigma/\sqrt{n}}-\frac {\mu - \mu_0}{\sigma/\sqrt{n}})<= \Phi(\frac {C}{\sigma/\sqrt{n}}),对于任意的\mu>\mu_0成立\\ 因此\Phi(\frac {C}{\sigma/\sqrt{n}}-\frac {\mu - \mu_0}{\sigma/\sqrt{n}})<= \alpha\\ \Phi(\frac {C}{\sigma/\sqrt{n}})<= \alpha\\ C<= Z_{1-\alpha}\sigma/\sqrt{n}\\ C<= -Z_{\alpha}\sigma/\sqrt{n}\\ \]

所以,求得关于C的不等式,显然C在越大时,取伪概率越低,因此

\[ C = -Z_{\alpha}\sigma/\sqrt{n} \]

综上所述,假设检验的问题,本质上就是对于给定的显著水平下(一般为0.01,0.05,0.10等等),求让弃真概率少于这个显著水平,且取伪概率取到最低时的拒绝域参数C。本质上仍然是一个求最值(取伪概率取到最低)的问题,只是加上了不等式条件(弃真概率少于显著水平)而已。

而对于P_值,则不是从\(\alpha\)反推C值,而是从样本拒绝域推出临界的C值,然后从临界C值推出第I类错误的概率。说的是,如果把这个样本看成是第I类错误的话,这会有多少概率的其他样本也会一并被纳入第I类错误,所以P_值越大,越说明第I类错误是不合理的,原假设应看成是成立的。例如,如果P_值为0.92,则说明如果将当前样本看成是不成立的样本,则会有92%的其他样本也会犯第I类错误,明明是原假设成立的,却被看成原假设不成立。

9.2 单正态样本的假设检验

9.2.1 Z检验

方差已知

双边假设

\[ H_0:\mu=\mu_0,H_1:\mu\neq \mu_0\\ W = \{\lvert Z \rvert=\lvert \frac {\overline{X}-\mu_0}{\sigma/\sqrt{n}}\rvert>=Z_{\alpha/2}\} \]

右边假设

\[ H_0:\mu<=\mu_0,H_1:\mu> \mu_0\\ W = \{Z=\frac {\overline{X}-\mu_0}{\sigma/\sqrt{n}}>=Z_{\alpha}\} \]

左边假设

\[ H_0:\mu>=\mu_0,H_1:\mu< \mu_0\\ W = \{ Z = \frac {\overline{X}-\mu_0}{\sigma/\sqrt{n}}<=-Z_{\alpha}\} \]

9.2.2 t检验

方差未知

双边假设

\[ H_0:\mu=\mu_0,H_1:\mu\neq \mu_0\\ W = \{\lvert T \rvert=\lvert \frac {\overline{X}-\mu_0}{S/\sqrt{n}}\rvert>=t_{\alpha/2}(n-1)\} \]

左边假设

\[ H_0:\mu>=\mu_0,H_1:\mu< \mu_0\\ W = \{ T = \frac {\overline{X}-\mu_0}{S/\sqrt{n}}<=-t_{\alpha}(n-1)\} \]

右边假设

\[ H_0:\mu<=\mu_0,H_1:\mu> \mu_0\\ W = \{ T = \frac {\overline{X}-\mu_0}{S/\sqrt{n}}>=t_{\alpha}(n-1)\} \]

9.2.3 \(\chi^2\)检验

双边假设

\[ H_0:\sigma=\sigma_0,H_1:\sigma\neq \sigma_0\\ W = \{ \chi^2 = \frac {(n-1)S^2}{\sigma^2}>=\chi^2_{\alpha/2}(n-1)\} \]

左边假设

\[ H_0:\sigma>=\sigma_0,H_1:\sigma< \sigma_0\\ W = \{ \chi^2 = \frac {(n-1)S^2}{\sigma^2}<=\chi^2_{1-\alpha}(n-1)\} \]

右边假设

\[ H_0:\sigma<=\sigma_0,H_1:\sigma> \sigma_0\\ W = \{ \chi^2 = \frac {(n-1)S^2}{\sigma^2}>=\chi^2_{\alpha}(n-1)\} \]

9.3 双正态样本的假设检验

9.3.1 精确z检验

方差已知

双边假设

\[ H_0:u_1=u_2,H_1:u_1\neq u_2\\ W= \{\frac {\lvert \overline{X} - \overline{Y}\rvert} {\sqrt{\frac {\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}>=Z_{\alpha/2}\} \]

9.3.2 精确t检验

方差未知,但相等

双边假设

\[ H_0:u_1=u_2,H_1:u_1\neq u_2\\ W= \{\frac {\lvert \overline{X} - \overline{Y}\rvert} {S_w\sqrt{\frac {1}{n_1}+\frac{1}{n_2}}}>=t_{\alpha/2}(n_1+n_2-2)\} \]

9.3.3 近似t检验

方差未知,且不相等

双边假设

\[ H_0:u_1=u_2,H_1:u_1\neq u_2\\ W= \{\frac {\lvert \overline{X} - \overline{Y}\rvert} {\sqrt{\frac {S_1^2}{n_1}+\frac{S_2^2}{n_2}}}>=Z_{\alpha/2}\} \]

9.3.4 精确F检验

双边假设

\[ H_0:\sigma_1^2=\sigma_2^2,H_1:\sigma_1^2\neq \sigma_2^2\\ W= \{\frac {S_1^2}{S_2^2}>=F_{\alpha/2}(n_1-1,n_2-1)或\frac {S_1^2}{S_2^2}<=F_{1-\alpha/2}(n_1-1,n_2-1)\} \]

9.4 分布的假设检验

9.4.1 皮尔逊拟合度检验

双边假设

\[ H_0:F(x)=F_0(x),H_1:F(x) \neq F_0(x)\\ W=\{\sum\limits_{i=1}^{k}\frac {(n_i-np_i)^2}{np_i}>=\chi^2_{\alpha}(k-r-1)\} \]

9.4.2 柯尔莫哥洛夫检验

双边假设

\[ H_0:F(x)=F_0(x),H_1:F(x) \neq F_0(x)\\ W=\{\max\{\lvert F_0(x_i)-\frac {i-1} {n}\rvert,\lvert F_0(x_i)-\frac {i} {n}\rvert\}>=D_{\alpha}\} \]

柯尔莫哥洛夫就是先将数据从小到大排列,然后每个数据点对应一个理论的概率分布值(F_0(x)),以及对应的一个实际的概率分布值(i/n),取所有数据点中两个值差距最大的点来做判断。

皮尔逊拟合度检验本质上就是以\(P_{理论} = P_{实际}\)来判断,使用的是概率是否为频率。而柯尔莫哥洛夫本质就是以\(F_{理论} = F_{实际}\)来判断,使用的概率分布函数是否为实际的概率分布律莱判断。

9.4.3 正态W检验

对于正态样本,我们有:

双边假设

\[ H_0:F(x)=N_0(x),H_1:F(x) \neq N_0(x)\\ W=\{\frac {\sum\limits_{i=1}^{[n/2]}a_i\cdot [X_{n+i-1}]-X_i]^2}{\sum\limits_{i=1}^{n}(X_i-\overline{X})^2}>=W_{\alpha}\} \]

10 方差和回归分析

10.1 正态样本方差分析

10.1.1 单因素方差分析

定义

\[ S_T = \sum\limits_{i=1}^{r} \sum\limits_{j=1}^{n_i}(X_{ij}-\overline{X})^2\\ \overline{X} = \frac 1 n \sum\limits_{i=1}^{r} \sum\limits_{j=1}^{n_i}X_{ij}\\ \overline{X_i\cdot}= \frac 1 n_i \sum\limits_{j=1}^{n_i}X_{ij}\\ S_A=\sum\limits_{i=1}^{r} \sum\limits_{j=1}^{n_i}(\overline{X_\cdot}-\overline{X})^2\\ S_E = \sum\limits_{i=1}^{r} \sum\limits_{j=1}^{n_i}(X_{ij}-\overline{X_\cdot})^2 \]

则显然有

\[ S_T = S_E + S_A \]

那么,对于正态样本有双边假设:

\[ H_0:\mu_1=\mu_2=\cdots=\mu_r=\mu,H_1:\mu_1,\mu_2,\cdots,\mu_r不全相等\\ W=\{\frac {S_A/(r-1)}{S_E/(n-r)}>=F_{\alpha}(r-1,n-r)\} \]

10.1.2 无交互作用多因素方差分析

定义

\[ S_T= \sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}(X_{ij}-\overline{X})^2,\overline{X} = \frac {1} {rs} \sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}X_{ij}\\ S_A = s\sum\limits_{i=1}^{r}(\overline{X_{i\cdot}}-\overline{X})^2,\overline{X_{i\cdot}}=\frac 1 s \sum\limits_{j=1}^{s}X_{ij}\\ S_B = r\sum\limits_{j=1}^{s}(\overline{X_{\cdot j}}-\overline{X})^2,\overline{X_{\cdot j }}=\frac 1 r \sum\limits_{j=1}^{r}X_{ij}\\ S_E = \sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}(X_{ij}-\overline{X_{i \cdot}}- \overline{X_{\cdot j}}+\overline{X})^2 \]

显然有

\[ S_T = S_A +S_B + S_E \]

那么,对于正态样本有双边假设:

\[ H_0:a_1=a_2=\cdots=a_r=0,H_1:a_1,a_2,\cdots,a_r不全为零\\ W=\{\frac {S_A/(r-1)}{S_E/((r-1)(s-1))}>=F_{\alpha}(r-1,(r-1)(s-1))\} \]

对于因素B,有

\[ H_0:b_1=b_2=\cdots=b_s=0,H_1:b_1,b_2,\cdots,b_s不全为零\\ W=\{\frac {S_B/(s-1)}{S_E/((r-1)(s-1))}>=F_{\alpha}(s-1,(r-1)(s-1))\} \]

10.1.3 有交互作用多因素方差分析

定义

\[ S_T= \sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}\sum\limits_{k=1}^{k}(X_{ijk}-\overline{X})^2,\overline{X} = \frac {1} {rst} \sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}\sum\limits_{k=1}^{t}X_{ij}\\ S_A = st\sum\limits_{i=1}^{r}(\overline{X_{i\cdot\cdot}}-\overline{X})^2,\overline{X_{i\cdot}}=\frac 1 {st} \sum\limits_{j=1}^{s}\sum\limits_{k=1}^{t}X_{ijk}\\ S_B = rt\sum\limits_{j=1}^{s}(\overline{X_{\cdot j \cdot}}-\overline{X})^2,\overline{X_{\cdot j }}=\frac 1 {rt} \sum\limits_{j=1}^{r}\sum\limits_{k=1}^{t} X_{ijk}\\ S_{AB}=t\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}(\overline{X_{ij}}-\overline{X_{i \cdot \cdot}}-\overline{X_{\cdot j \cdot}}+\overline{X})^2\\ S_E = \sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}\sum\limits_{k=1}^{t}(X_{ijk}-\overline{X_{ij\cdot}})^2 \]

显然有

\[ S_T = S_A + S_B + S_{AB}+S_{E} \]

那么,对于正态样本有双边假设:

\[ H_0:a_1=a_2=\cdots=a_r=0,H_1:a_1,a_2,\cdots,a_r不全为零\\ W=\{\frac {S_A/(r-1)}{S_E/(rs(t-1))}>=F_{\alpha}(r-1,rs(t-1))\} \]

对于因素B,有

\[ H_0:b_1=b_2=\cdots=b_s=0,H_1:b_1,b_2,\cdots,b_s不全为零\\ W=\{\frac {S_B/(s-1)}{S_E/(rs(t-1))}>=F_{\alpha}(s-1,rs(t-1))\} \]

对于因素AB,有

\[ H_0:ab_1=ab_2=\cdots=ab_s=0,H_1:ab_1,ab_2,\cdots,ab_s不全为零\\ W=\{\frac {S_{AB}/(s-1)(r-1)}{S_E/(rs(t-1))}>=F_{\alpha}((s-1)(r-1),rs(t-1))\} \]

10.2 正态样本相关分析

定义

\[ r = \frac {S_{xy}} {\sqrt{S_{xx}S_{yy}}}\\ S_{xx} = \sum\limits_{i=1}^{n}(x_i-\overline{x})^2\\ S_{yy} = \sum\limits_{i=1}^{n}(y_i-\overline{y})^2\\ S_{xy} = \sum\limits_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})\\ \]

那么,对于这两个随机变量是否线性无关,有假设

\[ H_0:\rho=0,H_1:\rho \neq 0\\ W=\{\lvert \frac {r \sqrt{n-2}}{\sqrt{1-r^2}}\rvert>=t_{\alpha/2}(n-2)\} \]

10.3 正态样本回归分析

10.3.1 单元回归分析

采用最小二乘法,我们能得到两个随机变量的线性回归方程\(y = \hat{\alpha}+\hat{\beta}x\),其中

\[ \hat{\alpha}=\overline{y}-\hat{\beta}x\\ \hat{beta} = \frac {S_{xy}}{S_{xx}} \]

回归方程的检验假设为

\[ H_0:\beta = 0,H_1:\beta=1\\ W=\{\frac {\hat{\beta}^2S_{xx}}{S^2}>= F_{\alpha}(1,n-2)\} \]

回归参数的区间估计为

\[ \frac {\hat{\beta}-\beta}{s/\sqrt{s_{xx}}} \sim t(n-2) \]

10.3.2 多元回归分析

采用多元的最小二乘法,结果用矩阵表示,为

\[ \hat{\beta}=(X'X)^{-1}X'Y \]

定义

\[ SST = \sum\limits_{i=1}^{n}(y_i-\overline{y})^2\\ SSR = \sum\limits_{i=1}^{n}(\hat{y_i}-\overline{y})^2\\ SSE = \sum\limits_{i=1}^{n}(y_i-\hat{y})^2\\ \]

那么,对于多因素是否有线性回归的假设

\[ H_0:\beta_1=\beta_2=\cdots=\beta_p=0,H_1:\beta_1,\beta_2,\cdots,\beta_p不全为零\\ W=\{\frac {SSR/p}{SSE/(n-p-1)}>=F_{\alpha}(p,n-p-1)\} \]

对于其中一个因素是否有线性回归的假设

\[ H_{0j}:\beta_j= 0,H_{1j}:\beta _j \neq 0\\ W=\{\lvert \frac {\hat{\beta_j}/\sigma\sqrt{c_{jj}}}{\sqrt{\frac {SSE}{\sigma^2}/(n-p-1)}}\rvert >= t_{\alpha/2}(n-p-1)\} \]

相关文章