第2章 随机变量及其分布 #
2.1 一维 #
离散型 #
- 退化 $P\{X = C\} = 1$
- 两点 $P\{X = k\} = p^k(1-p)^{1-k}$
- 离散均匀 $P\{X = x_k\} = \frac{1}{n} (k=1,2,...,n)$
- 二项 $B(k,n,p) = C_n^kp^k(1-p)^{n-k}$
- 泊松 $P(k,\lambda) = P\{X = k\} = \frac{\lambda^k}{k!}e^{-\lambda}$
- 几何 $P\{X = k\} = (1-p)^{k-1}p$
- 超几何 (M 取 k,N 取 n-k)$$P\{X = k\} = \frac{C_M^kC_{N-M}^{n-k}}{C_N^n}$$
连续性 #
$$F(x) = \int_{-\infty}^xp(y)\,dy$$- 均匀 $$p(x) = \begin{cases}\frac{1}{b-a}&a\leq x\leq b\\0&other\end{cases}$$
- 正态$$\begin{aligned}\varphi(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \\ \Rightarrow \int_{0}^{+\infty}e^{-t^2}dt = \frac{\sqrt{\pi}}{2} \end{aligned}$$
- 指数$$p(x) = \begin{cases}\lambda e^{-\lambda x} & x\geq0\\0 & x\lt 0\end{cases}$$
多维 #
性质 #
- x,y 单调非降
- 极限
- 单变量右连续
离散 #
$$P\{X = x_i;Y = y_i\} = p_{ij}$$连续 #
$$F(x,y)=\int_{-\infty}^{x}\int_{-\infty}^yp(u,v)\,dvdu$$$$\begin{aligned}p(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}exp\{-\frac{1}{2(1-\rho)^2}[\frac{(x-\mu_1)^2}{\sigma_1^2}-\frac{2\rho(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(x-\mu_2)^2}{\sigma_2^2}]\} \\ (\sigma_1>0,\sigma_2>0,|\rho|<1) \end{aligned}$$
- $$P\{X\leq x;Y\leq y\}=P\{X\leq x\}P\{Y\leq y\} \Leftrightarrow F(x,y)=F_X(x)F_Y(y)$$
- $$P\{X\leq x|Y\leq y\}=P\{X\leq x;Y\leq y\}/P\{Y\leq y\}$$
- $$\begin{aligned}F_Y(y) &= F_X(f^{-1}y)\\ \sum\limits_{k} p_Y(y)&=p_X[f^{-1}_ky]\cdot|f^{-1}_ky\prime|\end{aligned}$$
可以推广到所有单调区间
特殊分布的联合概率密度 #
$$X\sim P(\lambda_1),Y\sim P(\lambda_2),X+Y\sim P(\lambda_1+\lambda_2)$$$$\begin{aligned}X\sim N(\mu_1,\sigma_1^2)&,Y\sim N(\mu_2,\sigma_2^2)\\ X+Y&\sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)\\ X-Y&\sim N(\mu_1-\mu_2,\sigma_1^2+\sigma_2^2)\\ aX+b&\sim N(a\mu+b,(a\sigma)^2)\end{aligned}$$$$\begin{aligned} X\sim N(0,1),Y\sim N(0,1), Z=X/Y \\ p_Z(x)=\frac{1}{\pi}\frac{1}{1+z^2} \sim 柯西分布 \end{aligned}$$一般分布的联合概率密度 #
$Z=X+Y$ #
$$p_Z(z)=\int_{-\infty}^{+\infty}p(z-y,y)dy=\int_{-\infty}^{+\infty}p(x,z-x)dx$$$$p_Z(z)=\int_{-\infty}^{+\infty}p_X(z-y)p_Y(y)dy=\int_{-\infty}^{+\infty}p_X(x)p_Y(z-x)dx$$$Z=X-Y$ #
$$p_Z(z)=\int_{-\infty}^{+\infty}p(z+y,y)dy=\int_{-\infty}^{+\infty}p(x,x-z)dx$$$$p_Z(z)=\int_{-\infty}^{+\infty}p_X(z+y)p_Y(y)dy=\int_{-\infty}^{+\infty}p_X(x)p_Y(x-z)dx$$$Z=\frac{X}{Y}$ #
$$p_Z(z)=\int_{-\infty}^{+\infty}|y|\,p(yz,y)dy$$$$p_Z(z)=\int_{-\infty}^{+\infty}|y|\,p_X(yz)p_Y(y)dy$$- 极值分布
$$\begin{aligned} &F_M(x,y)=F_X(x)F_Y(y) \\ &F_N(x,y)=1-[1-F_X(x)][1-F_Y(y)] \end{aligned}$$
第3章 随机变量的数字特征 #
期望 #
- 离散
- 退化 $C$
- 两点 $p$
- 离散均匀 $\frac{n+1}{2}$
- 二项 $np$
- 泊松 $\lambda$
- 几何 $\frac{1}{p}$
- 连续
- 均匀 $\frac{a+b}{2}$
- 正态 $\mu$
- 指数 $\frac{1}{\lambda}$
- 柯西 无
$C_n^k = \frac{k}{n}C_{n-1}^{k-1}$
- 性质
- E(X+Y)=E(X)+E(Y)
- 独立 $\Rightarrow E(XY)=E(X)E(Y)$
$E(f(X,Y)) = \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}p(x,y)f(x,y)\,dxdy$
方差 #
- 离散
- 退化 0
- 两点 $p-p^2$
- 离散均匀 $\frac{n^2-1}{12}$
- 二项 $np(p-1)$
- 泊松 $\lambda$
- 几何 $\frac{1-p}{p^2}$
- 连续
- 均匀$\frac{(a-b)^2}{12}$
- 正态 $\sigma^2$
- 指数 $\frac{1}{\lambda^2}$
- 性质
独立 $\Rightarrow D(X)=D(X)+D(Y) \, D(X)=D(X)-D(Y)$
矩 #
k 阶原点矩: $\alpha_k=E(X^k)$
k 阶中心矩: $\mu_k=E[X-E(X)]^k$
X 与 Y 的 $k+l$ 阶混合中心矩: $E[X-E(X)]^k[Y-E(Y)]^l$
协方差与相关系数 #
$$cov(x,y)=E{[X-E(X)][Y-E(Y)]}$$
性质:
- $cov(X,Y)=cov(Y,X)$
- $cov(X,Y)=E(XY)-E(X)E(Y) \quad cov(X,X)=D(X)$
- $cov(aX,bY)=abcov(X,Y)$
- $cov(X_1+X_1,Y)=cov(X_1,Y)+cov(X_2,Y)$
- $X 与 Y 独立 \Rightarrow cov(X,Y)=0$
- $D(X\pm Y)=D(X)+D(Y)\pm 2cov(X,Y)$
- $D(X,a)=0 (a 为常数)$
$X 与 Y 独立 \Rightarrow cov(X,Y)=0 \Rightarrow \rho_{XY}=0$
性质:
- 对于任意的随机变量 X 与 Y,有$|\rho_{XY}|\leq 1$
- $|\rho_{XY}|=1 \Leftrightarrow P\{X=aY+b\}=1$
- $X 与 Y 独立,则无关,反之不真$
正态分布奇次方期望为0
第4章 极限定理 #
收敛性 #
$$\lim_{n\rightarrow \infty}F_n(x)=F(x) \Rightarrow Y_n \xrightarrow{L} Y$$$$\forall \varepsilon, \lim_{n\rightarrow \infty}P\{|Y_n-Y|<\varepsilon\} = 1 \Rightarrow Y_n \xrightarrow{P}Y$$$$Y_n \xrightarrow{P} C, g 在 C 连续, g(Y_n) \xrightarrow{P} g(C)$$$$\lim_{n\rightarrow \infty}E|Y_n-Y|^r = 0 \Rightarrow Y_n \xrightarrow{r} Y$$$$P\left\{\lim_{n\rightarrow \infty} Y_n = Y \right\} = 1 \Rightarrow Y_n \xrightarrow{a.e.}Y$$$$\begin{aligned}Y_n \xrightarrow{a.e.} Y \Rightarrow& Y_N \xrightarrow{P} Y \\ Y_n \xrightarrow{r} Y \Rightarrow& Y_n \xrightarrow{P} Y \\ Y_n \xrightarrow{P} Y \Rightarrow& Y_n \xrightarrow{L} Y \end{aligned}$$一阶收敛:平均收敛 二阶收敛:均方收敛
大数定律 #
$$\forall \varepsilon, P\left(|X-E(X)|>\varepsilon\right) \leq \frac{D(X)}{\varepsilon^2}$$$$\lim_{n\rightarrow \infty} P\left\{|\frac{1}{n}\sum_{i=1}^nX_i-a_n|<\varepsilon\right\}=1$$$$\lim_{n\rightarrow \infty}P\left\{\left|\frac{1}{n}\sum_{i=1}^nX_i-\frac{1}{n}\sum_{i=1}^nE(X_i)\right|<\varepsilon\right\} = 1$$$$\lim_{n\rightarrow \infty}P\left\{\left|\frac{n_a}{n}-p\right|<\varepsilon\right\}=1$$$$\lim_{n\rightarrow \infty}P\left\{\left|\frac{1}{n}\sum_{i=1}^nX_i-\mu\right|<\varepsilon\right\} = 1$$中心极限定理 #
$$\lim_{n\rightarrow \infty}\left\{\frac{\sum\limits_{i=1}^nX_i-n\mu}{\sqrt{n}\sigma}\leq x\right\} = \Phi(x)$$$$\sum_{i=1}^nX_i \sim AN(n\mu,n\sigma^2)$$$$\lim_{n\rightarrow \infty}P\left\{\frac{Y_n-np}{\sqrt{np(1-p)}}\leq x\right\} = \Phi(x)$$
$B(n,p) \sim AN(np,np(1-p))$
当 p 很小,如 p $\leq$ 0.1,而 np 不太大时,用泊松分布近似
当 np $\geq$ 5,np(1-p) $\geq$ 5,用正态分布近似
第 5 章 数理统计的基本概念和抽样分布 #
样本 #
简单随机样本: 1) 代表性: 同分布
2) 独立性:样本相互独立
$(X_1,X_2,...,X_n)$ 的某组取值:样本观测值
$(X_1,X_2,...,X_n)$ 是来自总体的样本
分布密度为 $\prod_{i=1}^np(x_i)$
分布函数为 $\prod_{i=1}^nF(x_i)$
统计量是一个随机变量,完全由样本决定
常用统计量 #
- 样本均值:$\overline{X} = \sum_{i=1}^nX_i$
- 样本方差: $S_n^2 = \frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2 = \frac{1}{n}\sum_{i=1}^nX_i^2 - \overline{X}^2$
- 样本标准差: $S_n = \sqrt{S_n^2}$
- 修正样本方差:$S_n^{*2} = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2$
- 修正样本标准差:$S_n^{*} = \sqrt{S_n^{*2}}$
- 样本 k 阶矩:$A_k = \frac{1}{n}\sum_{i=1}^nX_i^k$
- 样本 k 阶中心矩:$A_k = \frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^k$
性质: - $E(\overline{X}) = E(X)$
- $D(\overline{X}) = \frac{1}{n}D(X)$
- $E(S_n^2) = \frac{n-1}{n}D(X)$
- $E(S_n^{*2}) = D(X)$
如果原随机变量为正态分布,则 $D(S^{*2}_n)$ 和 $D(S^{*2}_n)$ 可用 $\chi^2$ 分布求
次序统计量 #
- $X_{(1)}$ 分布密度:$p_{X_{(1)}} = n[1-F(x)]^{n-1}p(x)$
- $X_{(n)}$ 分布密度:$p_{X_{(1)}} = nF^{n-1}(x)p(x)$
经验分布函数 #
$$F_n(x) = \begin{cases}0, &x\lt x_{(1)} \\ \frac{k}{n}, &x_{(k)}\leq x \leq x_{(k+1)} \\ 1, &x\geq x_{(n)}\end{cases}$$
性质:
- $nF_n(x) \sim B(n,F(x))$ 即 $P\left\{F_n{x} = \frac{k}{n}\right\} = C_n^k[F(x)]^k[1-F(x)]^{n-k}$
- $\lim_{n\rightarrow \infty} P\{|F_n{x}-F(x)|<\varepsilon\} = 1$
常用统计分量 #
$\chi^2$ 分布 #
$$\chi^2_n = \sum_{i=1}^nX_i^2 \sim \chi^2(n)$$伽马函数: $\Gamma(\alpha) = \int_0^\infty x^{\alpha-1}e^{-x}\,dx$
$E(\chi^2_n) = n \quad D(\chi^2_n) = 2n$
$t$ 分布 #
$$T = \frac{X}{\sqrt{Y/n}} \sim t(n)$$柯西分布:$p(x)=\frac{1}{\pi}\frac{1}{1+x^2}$
n 充分大时,t 分布趋近于标准正态分布
$F$ 分布 #
$$F = \frac{X/n_1}{Y/n_2} \sim F(n_1,n_2)$$
性质:
- $\frac{1}{F} \sim F(n_2,n_1)$
- $T^2 \sim F(1,n)$
分位数 #
$$\Phi(u_\alpha) = 1 - \alpha$$- 标准正态 $u_\alpha = - u_{1-\alpha}$
- $\chi^2$ n 充分大时,$\chi^2_a(n) \approx n + \sqrt{2n}u_\alpha$
- $t$ $t_\alpha(n) = -t_{1-\alpha}$ n 充分大时,$t_\alpha(n) \approx u_\alpha$
- $F$ $F_\alpha(n_1,n_2) = \frac{1}{F_{1-\alpha}(n_2,n_1)}$
抽样分布 #
设 $X \sim N(\mu, \sigma^2), (X_1,X_2,...,X_n)$ 是来自总体的一个样本
- $\overline{X} \sim N(\mu, \frac{\sigma^2}{n})$
- $\overline{X}$ 与 $S_n^{*2}$ / $S_n^2$ 相互独立
- $\frac{(n-1)S_n^{*2}}{\sigma^2} \sim \chi^2(n-1)$ 或 $\frac{nS_n^{2}}{\sigma^2} \sim \chi^2(n-1)$
- $\frac{\overline{X}-\mu}{S^*_n/\sqrt{n}}$ 或 $\frac{\overline{X}-\mu}{S_n/\sqrt{n-1}} \sim t(n-1)$
且分别有 $S_{n_1}^{*2}$ 和 $S_{n_2}^{*2}$
- $\frac{S_{n_1}^{*2}/S_{n_2}^{*2}}{\sigma_1^2/\sigma_2^2} \sim F(n_1-1,n_2-1)$
- 当 $\sigma_1^2 = \sigma_2^2 = \sigma^2$ 时,有 $$\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_\omega\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2)$$
$$S_\omega=\frac{(n_1-1)S_{n_1}^{*2}+(n_2-1)S_{n_2}^{*2}}{n_1+n_2-2}$$