概率论
1 随机事件与概率
1.1 随机试验
随机试验的特点:
- 可重复性
- 多样性与明确性(结果具有多样性,但观察可以确定结果)
- 不确定性
1.2 样本空间与随机事件
随机试验中所有可能出现的基本结果称为样本点,记为$\omega$,由所有样本点构成的集合称为样本空间,用其大写字母表示$\Omega$。
注意点:样本空间由观察规定。举例:掷一枚硬币,观察出现正反面图案,记出现正面图案为事件A。则样本空间为$\{0,1\}$。若观察行动为:掷硬币直到出现两次反面,则样本空间为$\{t|t\in N, t\geq 2\}$。
1.3 事件的关系和运算
子事件:$A\subset B$。和事件:$A\cup B$。积事件:$A\cap B$。互斥事件:$AB=\phi$。
差事件:$A-B=\overline{A}B=A-AB$。完备事件组:$\sum\limits_{i=1}^nA_i=\Omega$,则称$\sum\limits_{i=1}^nA_n$,为完备事件组。
事件之间的运算符合逻辑代数的关系运算律。
1.4 事件的概率
1.4.1 主观概率
有些实际问题无法进行完全相同的多次实验,因此采用主观概率。如医生估计此次手术成功的概率。
1.4.2 统计概率
频率:事件A在n次重复实验中出现了r次,则频率为$f_n(A)=\frac{r}{n}$。
频率的性质:
- 非负性
- 规范性$f_n(\Omega)=1$
- 有限可加性,设A,B为独立事件$f_n(A+B)=f_n(A)+f_n(B)$
统计概率:若$\lim\limits_{n\rightarrow+\infty}f_n(A)=p$,则事件的统计概率记为$P(A)=p$。
1.4.3 古典概率
样本空间中的事件个数有限且具有等可能性,则古典概率记为$P(A)=\frac{r}{n}$。
1.4.4 几何概率
古典概率的拓展,当样本区域有限,事件A可以用其子区域表示,事件A的概率与其几何测度有关,与区域的位置和形状无关,则几何概率记为:
1.5 概率的公理化
1.5.1 定义
设$\Omega$是随机试验E的样本空间,F是其中的子集合,称为事件域,P是E下定义在F上的实值集合函数(测度),即$P:F\mapsto[0,1]$。如果P满足:
- 非负性
- 规范性$P(\Omega)=1$
- 可列可加性,若事件互斥:$P(\sum\limits_{i=1}^{+\infty}(A_i))=\sum\limits_{i=1}^{+\infty}P(A_i)$
则P(A)为事件A的概率。
1.5.2 性质
- 空集概率为0
- 有限可加性$P(\sum\limits_{i=1}^{n}(A_i))=\sum\limits_{i=1}^{n}P(A_i)$
- $P(\overline{A})=1-P(A)$
- $若A\subset B,则P(B-A)=P(B)-P(A)$
- 单调性$A\subset B,P(A)>P(B)$
- 加法公式$P(A\cup B)=P(A)+P(B)-P(AB)$
加法公式的一般化
1.6 条件概率
1.6.1 定义
A、B是样本空间$\Omega$中的两个随机事件,若P(A)>0,则$\frac{P(AB)}{P(A)}$为事件A发生的条件下事件B的条件概率。记为P(B|A),即
条件概率符合概率的三大基本公理。
1.6.2 乘法公式
多事件拓展:
1.6.3 全概率公式
1.6.4 Bayes公式
1.7 事件独立性
1.7.1 定义
若$P(AB)=P(A)P(B)$则称A、B为独立事件。同理可得其充要条件:$P(A|B)=P(A)$。
相互独立:n个随机事件中,对其中k个事件(k>1)均有$P(\sum\limits_{i=1}^kA_i)=\prod\limits_{i=1}^kP(A_i)$,则称事件相互独立。
两两独立:n个随机事件中,对其中2个事件均有$P(\sum\limits_{i=1}^2A_i)=\prod\limits_{i=1}^2P(A_i)$,则称事件两两独立。
性质1:若$A_1,A_2,A_3\cdots A_n$相互独立,则$\overline{A_1},\overline{A_2},A_3\cdots A_n$也相互独立。
性质2:若$A_1,A_2,A_3\cdots A_n$相互独立,将其分成两组,并对组内事件进行交并补差运算后,两组分别得到的事件依旧相互独立。
1.7.2 独立重复试验
- 两个试验的结果相互独立,则两个实验相互独立。
- n个试验的结果相互独立,则称n重独立试验。
- 若试验的结果只有两个则称伯努利试验。
- 若n重独立试验中每次都是伯努利试验则称n重伯努利试验。
1.7.3 二项概率公式
n重伯努利试验中成功k次的概率为:
1.7.4 几何概率公式
表示首次成功发生在第k次的概率:
1.7.5 负二项概率公式
成功r次发生在第k次的概率:
1.8 本章错题
1.8.1 A组
P36.7:某码头只能容纳一条船,A、B两条船在24小时内等概率到达,卸货时间分别为3、4小时,求有一条船在码头外等待的概率。
P36.12:设10件产品中有4个次品,从中任取两件不放回,已知其中一件是次品,求另一件是次品的概率。
P36.13:10个零件中有3个次品,一次取一件,不放回连取4次,求第4次才取得次品的概率。
2 一维随机变量及其分布
2.1 随机变量及其分布函数
随机变量:设$\Omega$为随机试验E上的样本空间,X为$\Omega$上的一个单实值函数,若满足对任意的$x\in R$,有$\{X \leqslant x\}=\{\omega| X(\omega) \leqslant x, \omega \in \Omega\}\in\mathscr{F}$,其中$\mathscr{F}$是事件域。
分布函数:设X为一个随机变量,记
分布函数性质:
- 非负性 $0\leqslant F(x)\leqslant 1$
- 单调不减性 $x_1<x_2, F(x_1)<Fx_2$
- 规范性 $F(-\infty)=\lim\limits _{x \rightarrow-\infty} F(x)=0, \quad F(+\infty)=\lim\limits _{x \rightarrow+\infty} F(x)=1$
- 右连续性 $F(x+0)=\lim\limits _{t \rightarrow x+0} F(t)=F(x), x \in \mathbf{R}$
- 函数F(x)在点x连续的充分必要条件是$P\{X=x\}=0$
2.2 离散型随机变量及其分布率
如果X可取有限多个或可列多个不同的值,则称X为离散型随机变量。
离散型随机变量分布率可用公式、表格或大括号表示。
性质:
- 非负性 $p_i\geqslant0, i = 1, 2, 3, …$
- 正则性 $\sum\limits_{i=1}^{+\infty}p_i=1$
2.3 常见离散型分布率
2.3.1 退化(单点)分布
2.3.2 两点分布
记为$X \sim B(1, p)$.
2.3.3 二项分布
记为$X\sim B(n,p)$
2.3.4 几何分布
记为$X\sim G(p)$,几何分布具有无记忆性,对于每个k>0,都有
2.3.5 泊松分布
记为$X\sim P(\lambda)$
泊松定理:如果$\lim\limits_{n\rightarrow+\infty} n p_{n}=\lambda>0$,则
由泊松定理可知,当n很大p很小时,二项分布可以用泊松分布近似:
2.4 连续型随机变量及其分布函数
定义:设F(x)为随机变量X的分布函数,如果F(x)可以表示为非负函数f(x)的积分,
则称X为连续性随机变量,称f(x)为X的密度函数,称F(x)为连续性分布函数。
性质:
- 非负性 $f(x) \geqslant 0, x \in \mathbf{R}$
- 规范性 $\int_{-\infty}^{+\infty} f(x) \mathrm{d} x=1$
- $P\{a<X \leqslant b\}=\int_{a}^{b} f(x) \mathrm{d} x$,其中a,b均为常数,且$a<b$,对数集$A, P\{ X \in A\}=\int_{A} f(x) \mathrm{d} x$
- F(x)是x的连续函数
- 在f(x)的可微点x处,有$F^{\prime}(x)=f(x)$
概率为0的事件不一定是不可能事件,概率为1的事件也不一定是必然事件。
2.5 常见连续型分布率
2.5.1 均匀分布
记为$X\sim U[a,b]$
2.5.2 指数分布
记为$X \sim \Gamma(1, \lambda),\lambda >0$
设X为连续性非负随机变量,则X服从指数分布的充分必要条件是对任何的$s,t\geqslant0$,有
此式也称无记忆性or无后效性。
2.5.3 正态分布
记为$X\sim N(\mu,\sigma^2)$
标准正态分布
记为$X\sim N(0,1)$
性质:
- f(x),F(x)处处为正且存在各阶导数
- 在$(-\infty,\mu)$内f(x)单调增,在$(\mu, +\infty)$内单调减。
- $f(\mu+x)=f(\mu-x)$
- $F(x)=\Phi\left(\frac{x-\mu}{\sigma}\right)$
- $\Phi(-x)=1-\Phi(x)$
2.6 随机变量函数的分布
2.6.1 离散型
先列表,再合并。
2.6.2 连续型
2.6.2.1 通用方法
即利用定义转化分布函数,然后恒等变换。
求导可得密度函数。
2.6.2.2 单调函数
$Y=g(X)$,$g(x)$的反函数存在,且单调可导,则Y的密度函数为:
3 多维随机变量及其分布
3.1 二维随机变量及其分布函数
二维随机变量:设$\Omega$是随机试验E的样本空间,X,Y是定义在$\Omega$上的实值函数,对任意x,y,有$\{X \leqslant x, Y \leqslant y\}=\{\omega| X(\omega) \leqslant x 且\quad Y(\omega) \leqslant y, \omega \in \Omega \}\in \mathscr{F}$,则称(x,y)为概率空间$(\Omega, \mathscr{F}, P)$上的二维随机变量。
联合分布函数:$F(x, y)=P\{X \leqslant x, Y \leqslant y\}$为(X,Y)的联合分布函数。
性质:
- $0 \leqslant F(x, y) \leqslant 1,-\infty <x, y<+\infty$
- $F(x+0, y)=F(x, y), \quad F(x, y+0)=F(x, y)$
3.1.2 二维离散型随机变量及其分布率
定义:随机变量(X,Y)的所有可能取值是有限个数对或可数多个对,则称(X,Y)是二维离散型随机变量。
联合分布率:
性质:
- $p_{i j} \geqslant 0, i, j=1,2, \cdots$
- $\sum\limits_{i=1}^{+\infty} \sum\limits_{j=1}^{+\infty} p_{i j}=1$
3.1.3 二维连续性随机变量及其分布率
定义:设二维随机变量(X,Y)的分布函数F(x,y),如果存在非负二元可积函数f(x,y),使得对任意的实数x,y,有
则称(X,Y)是二维连续性随机变量,称函数f(x,y)为(x,y)的联合密度函数。
性质:
- $f(x, y) \geqslant 0, \quad(x, y) \in \mathbf{R}^{2}$
- $\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f(x, y) \mathrm{d} x \mathrm{d} y=1$
- 若f(x,y)在(x,y)处连续,则有$\frac{\partial^{2} F(x, y)}{\partial x \partial y}=f(x, y)$
- $P\{(X, Y) \in D\}=\iint\limits_{D} f(x, y) \mathrm{d} x \mathrm{d} y$
3.1.4 n维随机变量及其联合分布
如果$X_1,X_2,X_3,\cdots X_n$是定义在一个样本空间$\Omega$上的n个随机变量,则称$X=(X_1,X_2,\cdots,X_n)$为n维随机变量。
联合分布函数:
联合分布率:
联合分布率和联合分布函数关系:
多项分布:
n维连续性随机变量的联合分布函数:
3.2 边缘分布函数与随机变量的独立性
联合分布函数$\Rightarrow$边缘分布函数:
边缘分布率:
3.2.2 独立性
对$\forall x,y\in R$,有$F(x,y)=F(x)\cdot F(y)$,则称X,Y独立。
二维离散:
二维连续:
n维离散:
n维连续:
性质1:如果一组随机变量相互独立,则将其任意分组后,且任意两组都没有相同的随机变量,则组与组相互独立。
性质2:如果两组随机变量相互独立,则由这两组随机变量构成的两个多维连续函数也相互独立。
3.3 条件分布
3.3.1 离散型随机变量的条件分布
3.3.2 连续型随机变量的条件分布
3.4 二维随机变量函数的分布
3.4.1 离散型随机变量函数的分布
设$X\sim B(m,p), Y\sim (n,p)$,且X,Y相互独立,则$Z=X+Y\sim (m+n, p)$。
如果$X_1,X_2,\cdots,X_n$独立同分布于B(1,p),则$Z=\sum\limits_{i=1}^{n}X_i\sim B(n,p)$。
3.4.2 连续型随机变量函数的分布
3.4.2.1 极值函数及其分布
二元极值函数
多元极值函数,$X_1,X_2,\cdots,X_n$独立同分布,记$X_{(n)}=max(X_1,X_2,\cdots,X_n)$,$X_{(1)}=min(X_1,X_2,\cdots,X_n)$。
3.4.2.2 X+Y和函数的分布
Z=X+Y
当X和Y相互独立时,Z=X+Y的密度函数为
Z=aX+bY卷积公式
若$X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2)$,
多元情形:
3.4.2.3 一般随机变量函数Z=g(X,Y)的分布
一般方法:先求F(Z)再求f(z)
若X,Y独立同分布于$N(0,\sigma^2)$,$Z=\sqrt{X^2+Y^2}$服从参数为$\sigma$的瑞利分布:
$X,Y\sim N(0,1)$,$Z=X^2+Y^2$服从参数为1/2的指数分布,也是参数为2的卡方分布。
参数为n的卡方分布:
3.5 二维正态分布
记为$(X_1,X_2)\sim N(\mu_1,\mu_2;\sigma_1^2,\sigma_2^2;\rho)$
n维情形:
二维正态分布的边缘分布是正态分布。
卷积公式可得:
4 随机变量的数字特征
4.1.1 离散型期望
4.1.2 连续型期望
若$\int_{-\infty}^{+\infty}xf(x)dx$绝对收敛,则称X的期望存在。
4.1.3 随机变量函数期望
4.1.4 方差
设X为随机变量, 若$E(X-EX)^2<+\infty$,则称其为X的方差,记为DX。
由定义可推导得
4.1.5 常见分布的数字特征
分布类型 | 数学期望EX | 方差DX | 偏度$r_1$ | 峰度$r_2$ |
---|---|---|---|---|
0-1分布,$B(1,p)$ | p | p(1-p) | $\frac{1-2p}{\sqrt{p(1-p)}}$ | $\frac{1}{p(1-p)}-3$ |
二项分布,$B(n,p)$ | np | np(1-p) | $\frac{1-2p}{\sqrt{np(1-p)}}$ | $3+\frac{1-6p(1-p)}{np(1-p)}$ |
泊松分布,$P(\lambda)$ | $\lambda$ | $\lambda $ | $\lambda^{-1/2}$ | $\lambda^{-1}+3$ |
几何分布,$G(p)$ | $\frac{1}{p} $ | $\frac{1-p}{p^2}$ | $\frac{2-p}{\sqrt{1-p}}$ | $9+\frac{p^2}{1-p}$ |
均匀分布,$U[a,b]$ | $\frac{a+b}{2}$ | $\frac{(b-a)^2}{12}$ | 0 | $\frac {9}{5}$ |
指数分布,$\Gamma(1,\lambda)$ | $\frac{1}{\lambda}$ | $\frac{1}{\lambda^2}$ | 2 | 9 |
正态分布,$N(\mu,\sigma^2)$ | $\mu$ | $\sigma $ | 0 | 3 |
4.2.1 数学期望的性质
- $Ec=c$
- $E(aX+b)=aEX+b$
- $E(aX+bY)=aEX+bEY$
- 若XY独立,$E(XY)=EX\cdot EY$
4.2.2 方差的性质
- $Dc=0$
- $D(aX+b)=a^2DX$
- $D(X \pm Y)=D X+D Y \pm 2 E[(X-E X)(Y-E Y)]$
- XY独立,$D(X\pm Y)=DX+DY$
- $DX=E(X-EX)^2\leqslant E(X-x)^2$
- $P\left\{|X-E X| \geqslant \varepsilon \right\} \leqslant \frac{D X}{\varepsilon^{2}}$
4.3.1 协方差
展开得:
- $cov(c,X)=0$
- $cov(X,X)=DX$
- $cov(X,Y)=cov(Y,X)$
- $cov(aX,bY)=ab\cdot cov(Y,X)$
- $cov(X+Y,Z)=cov(X,Z)+cov(Y,Z)$
- $D\left(\sum\limits_{i=1}^{n} a_{i} X_{i}\right)=\sum\limits_{i=1}^{n} a_{i}^{2} D X_{i}+\sum\limits_{i=1}^{n} \sum\limits_{j=1,j\neq i}^{n} a_{i} a_{j} \operatorname{cov}\left(X_{i}, X_{i}\right)$
下列性质等价:
独立是以上性质的充分条件,而非充要条件。
4.3.2 相关系数
作用:消除随机变量的量纲。
相关系数定义:
性质:
$|\rho(X,Y)|\leqslant1$
由方差性质可知,$D(X^\pm Y^)=0\Leftrightarrow P\{X^\pm Y^=0\}=1$
$a=\pm\sqrt{\frac{DY}{DX}},b=EY-aEX$
$ | \rho(X,Y) | $ | 相关程度 |
---|---|---|---|
1 | 正相关 | ||
-1(去绝对值) | 负相关 | ||
$\geqslant0.8$ | 强相关 | ||
$\leqslant0.5$ | 弱相关 | ||
0 | 不相关 |
4.4 原点矩&中心矩
对任意正整数k,若$E(X^k)$存在,则称其为X的k阶原点矩。
若$E(X-EX)^k$存在,则称其为X的k阶中心矩。
5 极限定理
5.1 大数定律
5.1.1 切比雪夫大数定律
EX、DX存在,且存在常数C,使得$DX\leqslant C$,有
5.1.2 辛钦大数定律
EX、DX存在,且$EX=\mu, DX=\sigma^2$:
即$\bar{X}_{n} \frac{P}{n \rightarrow+\infty} \mu$
5.1.3 伯努利大数定律
设$\{X_i\}$为独立同分布的二项分布随机变量序列。
即$\frac{\mu_n}{n}\frac{P}{n \rightarrow+\infty} p$
5.2 中心极限定理
5.2.1 独立同分布的中心极限定理
设$\{X_i\}$为独立同分布的随机变量序列,且$EX_i=\mu,DX_i=\sigma^2$则对任意实数有
即
5.2.2 拉普拉斯定理
设$\{X_i\}$为独立同分布的二项分布随机变量序列,$Y_n=\sum\limits_{i=1}^nX_i$
6 数理统计的基本概念
6.1 总体与样本
为研究总体,从总体中随机抽取n个个体进行观测,称之为样本,其数量n为样本容量。
简单样本:
- 独立性:样本$X_1,X_2,\cdots,X_n$为相互独立的随机变量。
- 代表性:样本$X_1,X_2,\cdots,X_n$中的每个随机变量与总体X具有相同概率分布。
由所有样本组成的集合$\Omega=\{(x_1,x_2,\cdots,x_n)|x_i\in R,i=1,2,\cdots,n\}$称为样本空间。
设总体的分布函数为$F(x)$, $X_1,X_2,\cdots,X_n$是总体的样本,则该样本的联合分布函数为:
若总体为连续型随机变量,且密度函数为$f(x)$,则样本的联合密度函数:
若为离散型,则联合分布律为:
6.2.1 经验分布函数
$x_1,x_2,\cdots,x_n$由小到大排序,则根据频率得到:
称$F_n(x)$为总体X的经验分布函数。
6.2.2 直方图
作用:拟合密度函数曲线。
作图方法:
- 求出样本值的上下限,确定有界区间$[a,b]$
- 确定组数$m=1.87(n-1)^{0.4}$,组距$\frac{b-a}{m}$
- 区间频率$f_i=\frac{\gamma_i}{n}$
- 作图,以$[t_i,t_{i+1)}$为底,以$\frac{f_i}{t_{i+1}-t_i}$为高作长方形,所有长方形面积之和为1
6.3 统计量
定义:设$X_1,X_2,\cdots,X_n$为来自总体X的样本,若样本函数$T=T(x_1,x_2,\cdots,x_n)$不含任何未知参数,则T称为统计量。
6.3.1 样本矩统计量
- $\bar{X}=\frac{1}{n} \sum\limits_{i=1}^{n} X_{i}$
- 方差$S^2=\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\bar{X})^2$
- 样本k阶原点矩$M_k=\frac{1}{k}\sum\limits_{i-1}^nX_i^k$
- 样本k阶中心矩$M_k^*=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\bar{X})^k$
样本均值和样本方差的性质:
- $\sum\limits_{i=1}^n(X_i-\bar{X})=0$
- $E \bar{X}=E X, \quad D \bar{X}=\frac{1}{n} D X, \quad E M_{2}^{*}=\frac{n-1}{n} D X, \quad E S^{2}=D X$
- $n\rightarrow+\infty$,$\bar{X} \stackrel{P}{\longrightarrow} E X$
- $\sum\limits_{i=1}^n(X_i-\bar{X})^2=\sum\limits_{i=1}^n(X_i-x)^2$
6.3.2 顺序统计量
给定一组样本观测值,从小到大排列。
R样本极差,$\tilde{x}$中位数。
最大最小顺序统计量的分布函数:
如果X为连续性随机变量,则可求得概率密度函数:
6.4 抽样分布
6.4.1 样本均值X的分布
假设$X_1, X_2,\cdots,X_n$来自正态分布$X\sim N(\mu,\sigma^2)$的样本,则有$\frac{\bar{X}-\mu}{\sigma}\sqrt{ n}\sim N(0,1)$
假设$X_1, X_2,\cdots,X_n$来自任意非正态分布的样本,当n足够大时,则有$\frac{\bar{X}-\mu}{\sigma}\sqrt{ n}\sim N(0,1)$
6.4.2 常用的三个重要分布
卡方分布
假设$X_1, X_2,\cdots,X_n$来自标准正态分布$X\sim N(0,1)$的随机变量,记$\chi^2=\sum\limits_{i=1}^nX_i^2$,则称统计量$\chi^2$服从自由度为n的卡方分布。记为$\chi^2\sim \chi^2(n)$。
分布函数为:
重要性质:
$E\chi^2=n,D\chi^2=2n$
可加性:$\chi^2(n_1)+\chi^2(n_2)\sim \chi^2(n_1+n_2)$
t分布
设$X\sim N(0,1), Y\sim \chi^2(n)$,且x和Y相互独立,记$T=\frac{X}{\sqrt{Y/n}}$则称T服从自由度为n的t分布,记为$T\sim t(n)$
密度函数:
性质:
- $f(x)=f(-x)$
- $n>1, ET=0$
- $n>2,DT=\frac{n}{n-2}$
- $n=1,f(x)=\frac{1}{\pi}\cdot\frac{1}{1+x^2}$
- $n\rightarrow+\infty,f(x)\rightarrow\frac{1}{\sqrt{2\pi}}e^{-x^2/2}$即n充分大时,T分布近似于标准正态分布。
F分布
$X,Y\sim\chi^2(m),\chi^2(n)$,记$F=\frac{X/m}{Y/n}\sim F(m,n)$
密度函数:
重要性质:
$F\sim F(m,n),\frac{1}{F}\sim F(n,m)$
$T\sim t(n),T^2\sim F(1,n)$
6.4.3 分位数
对给定的概率p,有分位数$v_p$使得下列等式成立
$F(v_p)=P\{X\leqslant v_p\}=\int_{-\infty}^{v_p}f(x)dx=p$
将标准正态分布、卡方分布、t分布、F分布的分位数分别记为$u_p,\chi_p^2(n),t_p(n),F_n(m,n)$
- $u_{0.5}=0,-u_p=u_{1-p}$
- $t_{0.5}(n)=0,-t_p(n)=t_{1-p}(n)$
- n充分大时$(n>45),\chi_{p}^{2}(n) \approx \frac{1}{2}\left(u_{p}+\sqrt{2 n-1}\right)^{2}$
- $F_{1-p}(n, m)=\frac{1}{F_{p}(m, n)}, 0<p<1$
6.4.4 抽样分布
假设$X_1, X_2,\cdots,X_n$来自正态分布$X\sim N(\mu,\sigma^2)$的样本
$\frac{(n-1) S^{2}}{\sigma^{2}}=\frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2} \sim \chi^{2}(n-1)$
$\bar{X},S^2$相互独立
$\begin{aligned}
&\frac{\bar{X}-\mu}{S} \sqrt{n} \sim t(n-1)\\
&E S^{2}=\sigma^{2}, D S^{2}=\frac{2 \sigma^{4}}{n-1}
\end{aligned}$
假设$X_1, X_2,\cdots,X_n$来自正态分布$X\sim N(\mu,\sigma^2)$的样本,$Y_1, Y_2,\cdots,Y_n$来自正态分布$Y\sim N(\mu,\sigma^2)$的样本,两样本相互独立,令
则
其中
7 参数估计
7.1 参数估计的基本概念
总体分布已知,但有未知参数,求未知参数的问题就是参数估计。
参数估计常用两种方法:点估计,区间估计
7.2 点估计
未知参数$\theta$,称统计量$\hat{\theta}=T\left(X_{1}, X_{2}, \cdots, X_{n}\right)$为其点估计量,$T\left(X_{1}, X_{2}, \cdots, X_{n}\right)$为点估计值。
7.2.1 矩估计法
故可得
用样本矩代替总体矩所得到未知参数的点估计量称为矩估计量,矩估计量的样本值称为矩估计值。
7.2.2 最大似然估计
设$\theta_1,\theta_2,\cdots,\theta_k$是总体的未知参数,$\Theta$是参数的取值范围,称为参数空间。
求未知参数的最大似然估计值,即在参数空间内,让似然函数达到最大值。
7.3 估计的评判标准
7.3.1 无偏性
则称其为无偏估计。
7.3.2 有效性
若两个估计都是无偏估计,且$D\hat\theta_1 <D\hat\theta_2$,则称前者比后者有效。
若$\hat\theta^*$小于一切其他估计,则称其为最小方差无偏估计,或最优无偏估计。
比有效性使用更广泛的是均方误差:
7.3.3 相合性
若$\lim\limits _{n \rightarrow+\infty} E \hat{\theta}_{n}=\theta$,$\lim\limits _{n \rightarrow+\infty} D \hat{\theta}_{n}=0$,则称其具有相合性。
若样本的k阶原点矩存在,则样本的k阶原点矩是样本$EX^k$的相合估计。
7.4 区间估计
$T_1$,$T_2$分别称为置信上限和置信下限。
7.4.1 单正态总体参数的置信区间
$\mu$的置信区间
- $\sigma^2$已知
- $\sigma^2$未知
$\sigma^2$的置信区间
- $\mu$已知
- $\mu$未知
7.4.2 比率p的置信区间
$X\sim B(1,p)$
因为p就是二项分布的$\mu$,所以其实就是套用$\mu$已知时的单正态参数置信区间
8 假设检验
8.1 两类错误
$H_0$成立 | $H_0$不成立 | |
---|---|---|
拒绝$H_0$ | 弃真(第一类错误) | 正确 |
接受$H_0$ | 正确 | 纳伪(第二类错误) |
8.2 正态总体的参数假设检验
8.2.1 总体均值假设检验
8.2.2 总体方差假设检验
8.2.3 比率p的假设检验
$B\sim B(1,p)$
和区间估计一样,比率p的检验可以参考正态总体均值的假设检验。