速通概率论与数理统计

这是一篇学习笔记。

$\gdef\e{\mathrm{e}}\gdef\d{\mathrm{d}}\gdef\i{\mathrm{i}}\gdef\N{\mathbb{N}}\gdef\Z{\mathbb{Z}}\gdef\Q{\mathbb{Q}}\gdef\R{\mathbb{R}}\gdef\C{\mathbb{C}}\gdef\F{\mathbb{F}}\gdef\E{\mathbb{E}}\gdef\P{\mathbb{P}}\gdef\M{\mathbb{M}}\gdef\O{\mathrm{O}}\gdef\b#1{\boldsymbol{#1}}\gdef\ker{\operatorname{Ker}}\gdef\im{\operatorname{Im}}\gdef\r{\operatorname{rank}}\gdef\id{\mathrm{id}}\gdef\span{\operatorname{span}}\gdef\spec{\operatorname{spec}}\gdef\mat#1{\begin{bmatrix}#1\end{bmatrix}}\gdef\dat#1{\begin{vmatrix}#1\end{vmatrix}}\gdef\eps{\varepsilon}\gdef\arcsinh{\operatorname{arcsinh}}\gdef\arccosh{\operatorname{arccosh}}\gdef\arctanh{\operatorname{arctanh}}\gdef\arccoth{\operatorname{arccoth}}\gdef\arcsech{\operatorname{arcsech}}\gdef\arccsch{\operatorname{arccsch}}\gdef\sgn{\operatorname{sgn}}\gdef\sech{\operatorname{sech}}\gdef\csch{\operatorname{csch}}\gdef\arccot{\operatorname{arccot}}\gdef\arcsec{\operatorname{arcsec}}\gdef\arccsc{\operatorname{arccsc}}\gdef\tr{\operatorname{tr}}\gdef\unit#1{\mathop{}!\mathrm{#1}}\gdef\re{\operatorname{Re}}\gdef\aut{\operatorname{Aut}}\gdef\diag{\operatorname{diag}}\gdef\D{\mathrm{D}}\gdef\p{\partial}\gdef\eq#1{\begin{align*}#1\end{align*}}\gdef\Pr{\mathsf{Pr}}\gdef\Ex{\mathsf{E}}\gdef\Var{\mathsf{Var}}\gdef\ip#1{\left\langle #1\right\rangle}\gdef\char{\operatorname{char}}\gdef\J{\mathrm{J}}\gdef\Nd{\mathcal{N}}\gdef\Cov{\operatorname{Cov}}$

书：概率论与数理统计 (陈希孺)；练习

就列一下自己不会的知识点。

贝叶斯公式的意义（P36）
概率分布函数的定义（P45）
Poisson 分布的含义：在 $1$ 单位时间内期望发生 $\lambda$ 次。（P48）

例子：P49
负二项分布的含义（P50）
多维随机向量的 PDF 可能不存在（P65）
边缘分布的定义（P66）

注意严格来说，求边缘分布需要先求边缘的 CDF 再求导。（P68）

注意联合概率密度与条件概率密度的关系的证明（P74）
二维正态分布的边缘分布是正态分布。各维边缘分布不足以确定完整的分布。（P70）
随机变量独立性的一些性质（P78）：
- 随机变量独立 $\iff$ 取值事件独立
- PDF 可以分离变量 $\implies$ 分离的因子是边缘分布的倍数
- 随机变量独立 $\implies$ 分成两组算函数后独立
  - 证明：
    
    $\begin{aligned} \Pr(Y_1 \in A, Y_2 \in B) &= \Pr(g_1(\mathbf{X}) \in A, \ g_2(\mathbf{Z}) \in B) \\ &= \int_{\mathbb{R}^m} \int_{\mathbb{R}^{n-m}} \mathbf{1}_{g_1(\mathbf{x}) \in A} \cdot \mathbf{1}_{g_2(\mathbf{z}) \in B} \cdot f_{\mathbf{X}, \mathbf{Z}}(\mathbf{x}, \mathbf{z}) , d\mathbf{z} , d\mathbf{x} \\ &= \int_{\mathbb{R}^m} \mathbf{1}_{g_1(\mathbf{x}) \in A} \cdot f_{\mathbf{X}}(\mathbf{x}) , d\mathbf{x} \cdot \int_{\mathbb{R}^{n-m}} \mathbf{1}_{g_2(\mathbf{z}) \in B} \cdot f_{\mathbf{Z}}(\mathbf{z}) , d\mathbf{z} \\ &= \Pr(Y_1 \in A) \cdot \Pr(Y_2 \in B) \end{aligned}$
随机变量函数的 PDF 求法：
1. 除以导数/Jacobi 行列式绝对值的倒数（类似于积分换元），或者理解成先得把自因变量关系倒过来，得求逆函数。如果因变量不够需要补全。
2. 先积分算 CDF，再求导。
关于正态分布的几个点：
- 正态分布变量拆成两个独立变量，分别是正态（P93）
- 卡方分布： $$ k_n(x)=\frac{1}{\Gamma(n/2)2^{n/2}}\e^{-x/2}x^{(n-2)/2}\quad(x\ge 0) $$ 证明考虑 $k_m*k_n=k_{m+n}$，会发现积出来一个 $\Beta$ 函数。
- 我在想一个事情：为什么 $\ge 3$ 维的正态分布也只需要矩阵，而不需要张量之类的东西去刻画？可以通过高维正态分布的一个等价定义来理解：如果 $(x_1,\cdots,x_n)$ 的任意线性组合都是正态分布，那么它们的联合分布构成 $n$ 维正态分布。证明：
  
  令 $\b\mu$ 为期望，$\b\Sigma$ 为协方差矩阵。容易计算得到，对于一组系数 $\alpha$，$\Var(\alpha^\top\b x)=\alpha^\top\b\Sigma\alpha$，因此 $\alpha^\top\b x\sim\Nd(\alpha^\top\b\mu,\alpha^\top\b\Sigma\alpha)$。
  
  我们知道 $X\sim\Nd(\mu,\sigma^2)$ 的特征函数为 $\varphi_X(t)=\exp\left(\i\mu t-\frac12\sigma^2t^2\right)$，因此 $\varphi_{\alpha^\top\b x}(t)=\exp\left(\i\alpha^\top\b\mu t-\frac12\alpha^\top\b\Sigma\alpha t^2\right)$。而 $\varphi_{\b x}(\b t)=\Ex(\e^{\i\b t^\top\b x})=\varphi_{\b t^\top\b x}(1)=\exp\left(\i\alpha^\top\b\mu-\frac12\alpha^\top\b\Sigma\alpha\right)$。由于特征函数与概率分布意义对应，故 $\b x\sim\Nd_n(\b\mu,\b\Sigma)$。
商的 PDF（P98）
P100~101 的几个公式很重要，在求置信区间时会用到（P193 开始）。
期望必须要求绝对收敛（P111~112）
关于统计学三大分布，就两点：一个是 PDF 的推导，从卡方分布出发是容易推的。二是统计学性质，这个的核心是 P102 的引理。
协方差为 $0$ 不代表独立：P136。而二维正态分布时对应命题是成立的。
相关系数的定义 $\rho=\Cov(X_1,X_2)/\sigma_1\sigma_2$ 及其前提：一个重要不等式（P135）
二维正态分布： $$ f(x_1,x_2)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\exp\left(-\frac{1}{2(1-\rho^2)}\left(\frac{(x_1-\mu_1)^2}{\sigma_1^2}-\frac{2\rho(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2}\right)\right) $$
矩估计和最大似然估计都可能是有偏的，反例一般找估计的方差是 $1/n$ 而不是 $1/(n-1)$ 即可。
贝叶斯法的 $p(X_1,\cdots,X_n)$ 可以放着不求，视作一个常数比例系数（P172、P251）
相应地，拿 $\sum(X_i-\overline X)^2/(n-1)=S^2$ 估计 $\sigma^2$ 无偏，$S$ 估计 $\sigma$ 就有偏了，且总是偏小（P178），需要一个修正系数（取决于具体分布）。
均方误差的定义，以及与估计量方差的关系（P180）
枢轴变量法（P192）

注意这种方法实操时的逻辑是这样的：我知道对于某个 $\theta$，$X$ 的分布，于是我可以写出：对某个 $\theta$，$\Pr[L(\theta,\eps/2)\le X\le U(\theta,\eps/2)]\ge 1-\eps$。通过对这个解方程，我可以得到所需的形式：$\forall\theta$，$\Pr[L^\prime(X,\eps/2)\le\theta\le U^\prime(X,\eps/2)]\ge 1-\eps$。
区间估计和贝叶斯法的估计是本质不同的，前者是假定知道 $\theta$，随机 $X$，后者是知道 $X$，随机 $\theta$。即使有先验概率，也存在关于 $\set{X_i}$ 的上下界函数，符合第一种估计的要求不符合第二种，也存在符合第二种不符合第一种的。
有限样本空间的情况下，不放回抽样的方差估计（$/(n-1)$），是对总体 $/(N-1)$ 的方差的无偏估计。用另一种说法，就是 $$ E(\hat{\sigma}^2)=\sigma^2\cdot\frac{n-1}{n}\frac{N}{N-1} $$
简单提一下 Fisher 信息量 $I_n(\theta)=\Ex\left(\frac{\p\sum\log f(X_i,\theta)}{\p\theta}\right)^2$的作用：
- https://en.wikipedia.org/wiki/Cram%C3%A9r%E2%80%93Rao_bound
- 使用极大似然估计去得到 $\theta$ 的估计 $\theta^$ 时，在课本范围内可认为 $\theta^\to\Nd(\theta,1/nI(\theta))$，在极大似然是无偏时这可以用于估计【估计的误差】，从而得到置信区间。
- 注意一般 $I(\theta)=-\Ex(\ell_{\theta\theta})$ 会比 $I(\theta)=\Ex(\ell_\theta^2)$ 容易算。
注意假设检验的思想。两个互补的假设，在同一组数据下可能同时接受，这是因为当我们假设一个事情并取 $\alpha>1/2$ 时，我们就偏向于这个事情成立，而需要强的证据才能否定它。（例子 P220）
一致最优检验的定义（P216）、拟合优度的定义（P256）
连续的情况下，检验水平 = 第一类概率 = 第二类错误概率。因此一般在“保一”基础上，是设定一组 $(\theta_2,\alpha_2)$ 去限定第二类错误的。甚至有可能都无法限制（P224）
直觉的理解：置信区间和检验水平都是说的是，如果真正的 $\theta$ 不在所求区间内/真正的 $\theta$ 满足假设但不满足检验条件，那么抽到这样性质的 $\set{X_i}$ 概率太低了，注意这里的“性质”本身就是由检验方法来决定的，一般就是取一些统计量来看。

我们可以这样理解：这个检验方法是对每个 $\theta$，在所有可能的样本中划了一刀，保证一侧 $\ge1-\alpha$。由于我们考虑的分布一般都是随 $\theta$ 连续变化的，所以“当前样本属于 $1-\alpha$ 侧”的 $\theta$ 构成一个区间。另外我们可能会想，划的方法可能不一样啊？是的，比如对于一组 $\Nd(\mu,\sigma^2)$ 的样本拿平均数和中位数估计就会得到两个置信区间，它们确实是不同的，却都是对的，因为检验方法实际上是“自定义”了一个“抽象样本特征”的规则。
似然优度检验的两个关键点，一个是 $Z\sim\chi_{n-1}^2$，一个是在有参数未知的情况下，首先要检验的是“样本是否符合这样的概率分布规则”（而不是符合这样的某个特定概率分布），求的方法是先根据样本得到最大似然估计，再得到修正的“期望样本”，再与实际样本去比对。后者最常见的就是用来检验独立性（P262）
检验一致最优性的证明思路是这样的：如果一个检验对于原假设的一点与对立假设中的每个点，都是最优的，且满足原假设的水平的限制，那么它就是一致最优的。这个东西的好处在于，它将连续参数假设变为了两个单点假设，而单点假设的最优性由 Neyman–Pearson 引理保证。（P271）
“独立性检验”与“齐一性检验”的区别（P265）
卡方检验的证明：一个是归纳，把最后两个变量合起来，然后证明独立性（https://borisburkov.net/2021-06-17-1/），一个是用神秘的线性代数方法将原式化成一个高维正态分布的转置乘上自身的形式。https://arxiv.org/pdf/1808.09171
一元线性回归的几个基本内容：
- 参数估计的公式 $\hat{\beta}_0=\overline Y$，$\bar{\beta}_1=\sum(X_i-\overline X)Y_i/\sum(X_i-\overline X)^2$。这里将 $X_i$ 统一减去 $\overline X$ 是为了让两个参数协方差为 $0$（P291）。
- 估计的无偏性。
- $\hat\beta_0$ 和 $\hat\beta_1$ 的方差 $\sigma^2/n$ 与 $\sigma^2/\sum(X_i-\overline X)^2$。
- $\hat\sigma=\sum(Y_i-\hat{Y}_i)^2/(n-2)$（证明思路：拆成原误差、$\beta_0-\hat\beta_0$、$\beta_1-\hat\beta_1$ 三部分，P293）。注意 $\delta_i$ 的意义。
- 区间估计和预测的区别：估计是对在理论关系函数的估计中代入单点 $x_0$ 后的结果，预测是在此基础上加上外部因素导致的误差项。

自变量与因变量反过来的线性回归并非原线性回归的反函数。二元正态分布的例子（ChatGPT）：

Manipulate[
 Module[{cov, pdf, bYgivenX, bXgivenY, range = 4, line2},
  (* 协方差矩阵与PDF *)
  cov = {{σ1^2, ρ σ1 σ2}, {ρ σ1 σ2, σ2^2}};
  pdf[{x_, y_}] := 1/(2 Pi Sqrt[Det[cov]]) Exp[-1/2 {x, y}.Inverse[cov].{x, y}];

  (* 回归斜率：y 关于 x 与 x 关于 y *)
  bYgivenX = ρ (σ2/σ1);  (* E[y|x] = bYgivenX * x *)
  bXgivenY = ρ (σ1/σ2);  (* E[x|y] = bXgivenY * y  => 若要以 y=f(x) 画出，则 y = x/bXgivenY *)

  (* 如果 bXgivenY 很小 (接近 0)，则退化为竖直线 x=0 *)
  line2 = If[Abs[bXgivenY] < 10^-6,
    (* 画竖直线 x=0 *)
    Line[{{0, -range}, {0, range}}],
    (* 否则画 y = x / bXgivenY *)
    Line[{{-range, (-range)/bXgivenY}, {range, range/bXgivenY}}]
  ];

  (* 主图：密度 + 两条线 *)
  ContourPlot[
   pdf[{x, y}],
   {x, -range, range}, {y, -range, range},
   PlotPoints -> 80,
   MaxRecursion -> 2,
   ColorFunction -> Function[{zz}, ColorData["SunsetColors"][zz]],
   ColorFunctionScaling -> True,
   PlotRange -> All,
   Frame -> True,
   Axes -> True,
   Epilog -> {
     Thick, Blue, Line[{{-range, bYgivenX*(-range)}, {range, bYgivenX*range}}], (* y = bYgivenX x *)
     Thick, Dashed, Red, line2,                                        (* x = bXgivenY y 以 y=f(x) 或 x=0 的形式显示 *)
     Black, PointSize[Large], Point[{0, 0}]
   },
   PlotLabel -> Row[{
     "二元正态密度 (中心 = (0,0))  ;  σ1=", NumberForm[σ1, {3, 2}],
     "  σ2=", NumberForm[σ2, {3, 2}], "  ρ=", NumberForm[ρ, {3, 2}]
   }],
   ImageSize -> 520
  ]
 ],
 (* 控件 *)
 {{σ1, 1, "σ1"}, 0.1, 3, Appearance -> "Labeled"},
 {{σ2, 1, "σ2"}, 0.1, 3, Appearance -> "Labeled"},
 {{ρ, 0.6, "ρ"}, -0.99, 0.99, Appearance -> "Labeled"},
 ControlPlacement -> Left
]

相关分析：
- 两个变量的相关系数检验，在 $H_0:\rho=0$ 有个简单的 $t$ 分布，别的情况不好搞。
- 偏相关的定义（P326），计算思路是分别去掉线性回归部分，再算 $\Cov$。有一个一般的公式 $P_{12}/\sqrt{P_{11}P_{22}}$。如果变量是正态，检验也是一个 $t$ 分布，与上面一条几乎一样。
- 复相关的定义（P331），计算思路是只取线性回归部分。一般的公式 $\sqrt{1-|P|/P_{11}}$。如果变量是正态，检验是个 $F$ 分布。
水平、因素数、重复度的定义（P335）。方差分析的思路是：将整体的方差分成误差方差与各因素方差（交叉项 $\Ex=0$），然后通过因素方差除以误差方差的一个分布，来导出检验方法。
所谓分区组不一定更好的意思是说，如果 $MS_B<MS_e$，那么（由加权平均的性质）不分时的 $MS_e^\prime$ 会更小，反而更容易让 $F$ 比大。（P349）
P102 和 P305 的证明都是这样考虑的：考虑对 $\set{X_i}$ 做一个正交变换成为 $\set{Y_i}$，使得需要考虑的统计量被浓缩的到开头几个 $Y$ 里。这时 $\sum X_i^2=\sum Y_i^2$，变换一下 PDF 可以得到 $\set{Y_i}$ 独立，这下把需证明结论中所有跟 $X$ 相关的量都换成跟 $Y$ 相关，$Y$ 的性质很好，就行了。从这个角度也可以理解“自由度”的说法，就是只要求正交无任何具体限制的（后缀部分）$Y$ 的数量。
书里没讲似然比检验，不过这个看起来比较简单。书里 5.2 的那些“找枢轴变量”导出的准则和似然比检验的准则往往是一样的，特别地，在一致最优检验存在时，似然比检验给出的一定是一致最优检验。
总结一下统计中遇到的分布：
- 知道 $\sigma$ 估 $\mu$：$\Nd$
- 不知道 $\sigma$ 估 $\mu$：$t_{n-1}$
- 不知道 $\sigma$ 估 $\mu_1-\mu_2$：$t_{n+m-2}$
- 估 $\sigma^2$：$\chi_{n-1}^2$
- 估 $\sigma_1^2/\sigma_2^2$：$F_{n-1,m-1}$
- 指数分布：$\chi_{2n}^2$
- Bernoulli：只能大样本→正态
- 泊松分布：和还是泊松→用 P243 的方法变成 $\chi^2$
- 均匀分布：Irwin–Hall→正态
- $Z$ 值：$\chi^2$
- 回归：残差平方和 $\chi_{n-p-1}^2$、$\hat\beta_0$ 及 $\hat\beta_1$ $t_{n-p-1}$，$\rho=0$ 检验 $t_{n-2}$，方差分析 $F$

评论