$\gdef\P{\mathsf{Pr}}\gdef\E{\mathsf{E}}\gdef\e{\mathrm{e}}\gdef\eq#1{\begin{align*}#1\end{align*}}\gdef\V{\mathsf{Var}}\gdef\acc{\operatorname{acc}}\gdef\eps{\varepsilon}\gdef\Ext{\mathsf{Ext}}\gdef\Com{\mathsf{Com}}\gdef\Enc{\mathsf{Enc}}\gdef\Dec{\mathsf{Dec}}\gdef\Err{\mathsf{Err}}\gdef\Ring{\mathsf{Ring}}\gdef\d{\mathrm{d}}\gdef\p{\partial}\gdef\i{\mathrm{i}}\gdef\res{\operatorname{Res}}\gdef\b#1{\boldsymbol{#1}}\gdef\Nd{\mathcal{N}}\gdef\mat#1{\begin{bmatrix}#1\end{bmatrix}}\gdef\ip#1{\left\langle #1\right\rangle}\gdef\span#1{\operatorname{span}\Set{#1}}\gdef\r{\operatorname{rank}}\gdef\diag{\operatorname{diag}}$
一些书:
- Discrete Mathematics by Lovász, Pelikán, and Vesztergombi
- All of Statistics A Concise Course in Statistical Inference by Larry Wasserman
- Foundations of Data Science by Avrim Blum, John Hopcroft, and Ravindran Kannan
这边没记 Matrix Tree Theorem 和 Pfaffian 相关的,有空可能会补 Pfaffian。
计应数
概率论
$R(k)\ge\lfloor 2^{k/2}\rfloor$: 概率方法,证随机图有 $k$ 团/独立集的概率 $<1$,用 union bound: $$ 2\binom{\lfloor 2^{k/2}\rfloor}{k}2^{-\binom k2}\le\frac{\lfloor 2^{k/2}\rfloor^k}{k!2^{\binom k2-1}}\le\frac{2^{k^2/2-k(k-1)/2+1}}{k!}=\frac{2^{k/2+1}}{k!}<1 $$ $R(k)\le\binom{2k-2}{k-1}<4^k$: 相邻两个组合数的比值为 $4-2/k$;$R(r,s)\le R(r,s-1)+R(r-1,s)\le\binom{r+s-2}{r-1}$。
$\E(\text{\# of cycles})=\E(\sum 1/L_i)=n\E(L_i^{-1})=H_n$。Also $(x^{\overline{n}})^\prime|_{x=1}$。
$\P[|A(G)|>\log_2n+\log_2\log_2n]=\omicron(1)$。思路 1:枚举前 $k$ 个是哪几个选上,概率是定的。思路 2: $$ \begin{align*} \P[|A(G)|>k]&=\sum\P[k+1\text{-th is chosen after }i\mid k\text{-th is chosen at }i]\\ &\le\sum\frac{n}{2^k}\P[k\text{-th is chosen at }i]\\ &\le\frac{n}{2^k}\cdot 1\\ &=\Omicron((\log n)^{-1}) \end{align*} $$ $\P[|A(G)|<\log_2n-\log_2\log_2n]=\omicron(1)$。考虑相邻两个被选中直接的 gap(期望为 $2^i$),然后希望前 $k$ 个 gap 加起来 $\le n$ 这种。
第 $i$ 个和第 $i+1$ 个之间,方差为 $p^{-2}-p^{-1}=4^i-2^i$。因此满 $k$ 个的 $\E=2^k-1$,$\V=(4^k-1)/3-2^k+1$。$n$ 个不够的概率: $$ \eq{ \P[|A(G)|{{}<{}}k]&=\P[v_k>n]\\ &=\P[v_k-\E[v_k]>n-\E[v_k]]\\ &\le\P[v_k-\E[v_k]>n/2]\\ &<\V(v_k)/(n/2)^2&\rm(Chebyshev)\\ &=\Omicron((\log n)^{-2}) } $$
① $i$ 和 $j$ 同环: $$ \begin{align*} \P[i,j\text{ succeed}]&=\P[C_i=C_j\land |C_i|\le n/2]\\ &=\sum_{l\le n/2}\P[|C_i|=l]\cdot\P[C_j=C_i\mid|C_i|=l]\\ &=\sum_{l\le n/2}\frac1n\cdot\frac{l-1}{n-1}\\ &=\frac{(n/2)(n/2-1)}{2n(n-1)}\\ &=\frac{n-2}{8(n-1)} \end{align*} $$ ② $i$ 和 $j$ 异环: $$ \begin{align*} \P[i,j\text{ succeed}]&=\P[C_i\ne C_j\land |C_i|\le n/2\land |C_j|\le n/2]\\ &=\sum_{l\le n/2}\frac1n\cdot\P[C_j\ne C_i\land|C_j|\le n/2\mid|C_i|=l]\\ &=\sum_{l\le n/2}\frac1n\cdot\P[C_j\ne C_i\mid|C_i|=l]\cdot\P[|C_j|\le n/2\mid |C_i|=l\land C_j\ne C_i]\\ &=\sum_{l\le n/2}\frac1n\cdot\frac{n-l}{n-1}\cdot\frac{n/2}{n-l}\\ &=\frac{n}{4(n-1)} \end{align*} $$ 共 $\boxed{(3n-2)/(8n-8)}$。
所有人:绝对众数的性质,$1-H_n+H_{n/2}\sim1-\ln2$。
最优性:考虑开门之后不再关,这时成功概率与策略无关,等于原问题最优策略的成功率。
$$ \left(\frac{\e^\delta}{(1+\delta)^{1+\delta}}\right)^\mu\longrightarrow \e^{-\frac{\delta^2}{2+\delta}\mu}:\text{take log then use }\ln(1+x)\ge \frac{2x}{2+x} $$
Remark. For $\P[X\ge a]=\E(\e^{tX})/\e^{ta}$, we can simple use Markov: $\P[X\ge a]=\P[tX\ge ta]=\P[\e^{tX}\ge\e^{ta}]=\cdots$.
For $\P[X\le a]$, $a=(1-\delta)\eps$, the best $t$ will be negative. $$ \left(\frac{\e^{-\delta}}{(1-\delta)^{1-\delta}}\right)^\mu\longrightarrow \e^{-\frac{\delta^2}2\mu}:(1-x)\ln(1-x)\ge-x+\frac{x^2}2\text{ for }x\in(0,1) $$
Overall: $$ \boxed{ \left\{\eq{&\P[X\ge(1+\delta)\mu]\le\left(\frac{\e^\delta}{(1+\delta)^{1+\delta}}\right)^\mu\le\e^{-\frac{\delta^2}{2+\delta}\mu}&(\delta\ge 0)\\ &\P[X\le(1-\delta)\mu]\le\left(\frac{\e^{-\delta}}{(1-\delta)^{1-\delta}}\right)^\mu\le\e^{-\frac{\delta^2}2\mu}&(0\le\delta<1)}\right\}\longrightarrow\P[|X-\mu|\ge\delta\mu]\le2\e^{-\frac{\delta^2}3\mu} } $$
$$ \boxed{\P[X\ge c]\le 2^{-c}\text{ if } c\ge 7\mu} $$
$$ \boxed{\P[|\overline{X}-\E(\overline{X})|\ge\eps]\le2\e^{-\frac{\eps^2}{2+\eps}n}} $$
- Let $X=\sum[\text{is a clique}]$ over all subset of $V$, of size $(2-\eps)\log_2n$.
- $\P[X\le0]=\P[X\le\E(X)/2]\le\P[|X-\E(X)|\ge\E(X)/2]\le4\V(X)/\E(X)^2$. We wanna prove $\V(X)$ grows slower than $\E(X)^2$.
- First we need $\E(X)\to\infty$. $\E(X)=\binom nm2^{-\binom m2}$, it $\to+\infty$ exactly when $\eps>0$.
- Then we need to expand $\V(X)$. $\V(X)=\E(X^2)-\E(X)^2$. Divide $X^2$ into three types: $\cap\le 1$, $\cap=m$, $1<\cap<m$. The first type can be cancelled out by $\E(X)^2$, the second type is simply $\E(X)$. The last type $\le\frac{m^5}{n-m+1}\E(X)^2=\omicron(\E(X)^2)$. Done.
Simple BSA counterexample: $\sigma(\overline{u0v})=\overline{v1u}$, then all of these must pass through $(\overline{v0v}, \overline{v1v})$.
Randomized: choose random $v_i$ for each $i$. $i\to v_i\to\sigma(i)$. $\exists i,T_{i\to v_i}>6n$ 的概率为 $\Omicron(2^{-3n})$. 考虑 $\P[T_{i\to u}>6n]$, 最后乘 $2^n$ 即可. 已知 $T_{i\to u}\le d(i,u)+|S|\le n+|S|$, $S$ 为路径与 $i\to u$ 有交的 $j\to v_j$. 我们有 $|S|\le n/2$ 因为每条边有其他路径经过的概率为 $1/2$. 于是由 Chernoff bound, $\P[|S|>5n]=\Omicron(2^{-4n})$. $v_i\to\sigma(i)$ 是对称的.
信息论
- $\forall n$, $\forall\Ext$, $\E(|\Ext|)\le nH(p)$
- $\forall\delta>0$, $\forall n>N$, $\exists\Ext$, $\E(|\Ext|)\ge(1-\delta)nH(p)$.
1 证:考虑到如果一个串它以某个概率 $q$ 出现,那一个 deterministic 的 $\Ext$ 就必须把它映到长度不超过 $\log_2 q^{-1}$ 的串。
2 证:考虑发掘 $p\ne 1/2$ 的不均匀性中的均匀性——同 $\#1$ 的串都是等概率的。对于等概率的 $m$ 种情况,可以用二进制拆分,使得 $\E(|\Ext|)\ge\lfloor\log_2m\rfloor-1$。所有可能的 $\#1$ 求和后,只关注 $np$ 附近的一部分,因为 $\E(|\Ext|)$ 容易放缩而且 $\P$ 可以用 Chernoff。具体放缩用上面那个式子的左侧。
- $\forall\delta>0$, $\forall n>N$, $\forall\Com$, $\E(|\Com|)\ge(1-\delta)nH(p)$.
- $\forall\delta>0$, $\forall n>N$, $\exists\Com$, $\E(|\Com|)\le(1+\delta)nH(p)$.
1 证:证明最优方案中,出现概率小的对应的压缩长度一定越长,然后考虑 $\lfloor(p+\varepsilon)n\rfloor$ 个 1 的序列有几种。
2 证:$U_\eps(p)$ 个 $1$ 的用等概率编码,其余的用原编码,用 Chernoff bound。
- $\forall \delta,\eps>0$, $\forall n>N$, $\forall k\le n(1-H(p)-\delta)$, $\exists(k,n)\Enc$ with every input $\Err\le\eps$.
- $\forall \delta,\eps>0$, $\forall n>N$, $\forall k\ge n(1-H(p)+\delta)$, $\nexists(k,n)\Enc$ with random input $\Err\le\eps$.
$1-H(p)$ is called channel capacity.
1 证:需要在 $\set{0,1}^n$ 中找到大小为 $2^k$ 的子集,使得它们各自偏移其中约 $p$ 的部分之后,形成的一堆“环”的交不大。核心困难是,以高概率找到对大部分输入均高概率成功的,和证明存在对所有输入均高概率成功,此两者之间的 gap。对于第一个“高概率”,用 probabilistic method 证;对“大部分”,用冗余筛选证。
考虑所有 $2^{k+1}$ 大小的子集,随机选一个情况失败的概率。
$$
\eq{
\P_{C,i}[\text{Fail}]&\le\P_{C,i}[\tilde{c}_i\notin\Ring_\gamma(c_i)]+\P_{C,i}[\tilde{c}_i\in\Ring_\gamma(c_{j\ne i})]\\
&\le\eps_1+2^{k+1}\frac{|\Ring_\gamma|}{2^n}
}
$$
$\Ring_\gamma$ 是错 $pn$ 个附近的邻域。$\eps_1$ 可由 Chernoff bound 得到,性质:$|\Ring|\le2^{(H(p)+\delta^\prime)n}(\delta^\prime\to 0\text{ as }n\to\infty)$. 后一项就是
$$
2^{k+1+(H(p)+\delta^\prime)n-n}=2^{1+(\delta^\prime-\delta)n}\to 0
$$
因为 $\delta$ 是定的,而 $\delta^\prime$ 可以任意小。从而 $\Pr_{C,i}[\text{Fail}]$ 可以任意小,因此存在一个 $C$ 使 $\P_i[\text{Fail}]$ 足够小,取 $2^{k+1}$ 个 $i$ 中前一半优的,由类似于 Markov 的论证,它们的失败率都 $<2\P_i[\text{Fail}]$ 从而成功。
2 证:如果存在,设解码为 $i$ 的集合为 $S_i$。 $$ \eq{ \P[\text{Success}]&=\frac{1}{2^k}\sum_i\sum_{s\in S_i}\P[\tilde c_i=s]\\ &=\frac{1}{2^k}\sum_i\left(\sum_{s\in S_i\cap\Ring_\gamma(c_i)}\P[\tilde c_i=s]+\sum_{s\in S_i\setminus\Ring_\gamma(c_i)}\P[\tilde c_i=s]\right)\\ &\le\frac{1}{2^k}\sum_i|S_i|p^{(p-\eps)n}(1-p)^{(1-p+\eps)n}+\eps_1&(\text{WLOG }p<\frac12)\\ &\le \eps_1+\eps_2 } $$
概率密度
$$ \P[|\hat I_n-I|\ge\eps]\le\frac{\V(\hat I_n)}{\eps^2}=\frac1{\eps^2n}\left(\int f(x)^2\frac{p(x_i)^2}{q(x_i)}\d x-I^2\right) $$
may diverge. The optimal $q$ is $$ q^*(x)=\frac{f(x)p(x)}{\int f(x)p(x)\d x} $$ which is unachievable.
复分析
https://www.bilibili.com/video/BV15F41137Nn/
- 解析函数的定义
- 保角性质(通过棣莫弗定理)
- C-R 条件的等价性
- 偏导的几种形式($f^\prime$、$\frac{\p f}{\p x}$、$\frac{\p f}{\p y}$、$u^\prime$、$\frac{\p u}{\p x}$、$\frac{\p u}{\p y}$、$v^\prime$、$\frac{\p v}{\p x}$、$\frac{\p v}{\p y}$、$\frac{\p f}{\p z}$、$\frac{\p f}{\p\bar z}$)及解析的偏导表示
- 调和函数与解析函数的关系(在单连通集上唯一确定)
- 调和多项式的基(考虑齐次→维数→极坐标)
- 复变函数的积分
- 积分合法的条件及积分的参数化
- 同伦的定义
- 积分的展开及柯西积分定理(用 Green 公式)
- 通过切开连接的方法将围道推向无穷远,从而求一些积分的方法
- 柯西积分公式(通过展开到一阶项)推论:
- 一点由其围道 $\sup$ bound
- 高阶导数公式
- Liouville 定理
- Taylor 展开及级数收敛性质
Cauchy’s Residue Theorem: $$ \oint_\gamma f(z)\d z=2\pi\i\sum_k\res(f,z_k) $$ If $$ f(z)=\sum_{j=-\infty}^{+\infty}c_{j}(z-z_k)^{j} $$ then $\res(f(z),z_k)=c_{-1}$. So for simple pole: $$ \res(f(z),z_k)=\lim_{z\to z_k}(z-z_k)f(z) $$ (usually calculated by l'H)
For pole of order $m$: $$ \res(f(z),z_k)=\frac1{(m-1)!}\lim_{z\to z_k}\frac{\d^{m-1}}{\d z^{m-1}}\left[(z-z_k)^mf(z)\right] $$ For infinity, if $$ f(z)=\sum_{j=-\infty}^{+\infty}c_jz^j $$ then $\res(f(z),\infty)=-c_{-1}$. If the pole is of order $m$ ($\max\set{j\mid c_j\ne 0}=m$), then $$ \res(f(z),\infty)=\frac{(-1)^m}{(m+1)!}\lim_{z\to\infty}\left(z^{m+1}\frac{\d^{m+1}}{\d z^{m+1}}f(z)\right) $$ also, $$ \res(f(z),\infty)=-\res\left(\frac{1}{z^2}f\left(\frac1z\right),0\right) $$ So another form of Residue Theorem: $$ \oint_{\gamma^-}f(z)\d z=2\pi\i\res(f(z),\infty)\quad(\text{for contour enclosing all the singularities}) $$
$$ \sum\res(f(z),z_k)+\res(f(z),\infty)=0 $$
Estimate the asymptotics of coefficients of a GF: $$ f(z)=\text{some closed form}=\sum a_iz^i $$
$$ a_i=\res\left(\frac{f(z)}{z^{i+1}},0\right) $$
Also: $$ \oint_{\gamma}\frac{f(z)}{z^{i+1}}\d z=a_i+\sum_k\res\left(\frac{f(z)}{z^{i+1}},z_k\right) $$ For most of the functions, we can choose a family of contours, to make $$ f(z)=\Omicron(1)\Longrightarrow\oint_\gamma\frac{f(z)}{z^{i+1}}\d z\to 0 $$ so that we can get $a_i$ from those residues. For rational functions, the asymptotic behavior is governed by the nearest singularity to $0$.
智应数
高维几何
$$ \frac{A_d}2\Gamma\left(\frac d2\right)=\pi^{d/2}\Longrightarrow\boxed{A_d=\frac{2\pi^{d/2}}{\Gamma(d/2)}}\Longrightarrow\boxed{V_d=\frac{2\pi^{d/2}}{d\Gamma(d/2)}} $$
Here a useful formula is $$ \boxed{\int_{0}^{+\infty}\e^{-x^2}x^n\d x=\frac12\Gamma\left(\frac{n+1}2\right)=\left\{\begin{aligned}&\frac{(2n-1)!!}{2^{n+1}}\sqrt{\pi},&2\mid n\\ &\frac{n!}{2},&2\nmid n\end{aligned}\right.} $$
$$ \begin{align*} V\text{ above }\frac{c}{\sqrt{d-1}}&=\int_{c/\sqrt{d-1}}^1\sqrt{1-r^2}^{d-1}V_{d-1}\d r\\ &\le V_{d-1}\int_{c/\sqrt{d-1}}^1\e^{-\frac{d-1}2r^2}\d r\\ &\le V_{d-1}\int_{c/\sqrt{d-1}}^{+\infty}\e^{-\frac{d-1}2r^2}\d r\\ &\le V_{d-1}\int_{c/\sqrt{d-1}}^{+\infty}\e^{-\frac{d-1}2r^2}\cdot\frac{r}{c/\sqrt{d-1}}\d r\\ &=\frac{V_{d-1}\sqrt{d-1}}{2c}\int_{c/\sqrt{d-1}}^{+\infty}\e^{-\frac{d-1}2r^2}\d(r^2)\\ &=\frac{V_{d-1}\sqrt{d-1}}{2c}\cdot\frac{2}{d-1}\e^{-\frac{d-1}2\cdot\frac{c^2}{d-1}}\\ &=\frac{V_{d-1}}{c\sqrt{d-1}}\e^{-c^2/2} \end{align*} $$
(Main idea: 凑 $V_{d-1}$ and $\e^{-x^2}\to x\e^{-x^2}$) $$ \begin{align*} \frac{V_d}2&=\int_0^1\sqrt{1-r^2}^{d-1}V_{d-1}\d r\\ &=V_{d-1}\int_0^1(1-r^2)^{(d-1)/2}\d r\\ &\ge V_{d-1}\int_0^{1/\sqrt{d-1}}\left(1-\frac{d-1}2r^2\right)\d r&\left(\text{need }\frac{d-1}2\ge 1\text{ !!!}\right)\\ &\ge V_{d-1}\frac{1}{\sqrt{d-1}}\left(1-\frac{d-1}2\left(\frac1{\sqrt{d-1}}\right)^2\right)\\ &=\frac{V_{d-1}}{2\sqrt{d-1}} \end{align*} $$ (Main idea: 取一个圆柱)
So, $$ 1-\text{ratio}\le\boxed{\frac c2\e^{c^2/2}}\qquad\color{red}\text{when }d\ge 3,c\ge 1 $$
- all $|\b x_i|\ge 1-\frac{2\ln n}d$. Directly union bound.
- all pairs $|\b x_i\cdot\b x_j|\le\frac{\sqrt{6\ln n}}{\sqrt{d-1}}$. 把 $\b x_i$ 视作 equator 的法向量,$\b x_j$ 大概率在 equator 的圆盘附近,再 union bound.
![68–95–99.7 rule]](https://builtin.com/sites/www.builtin.com/files/styles/ckeditor_optimize/public/inline-images/1_empirical-rule.jpg)
when $\sigma=1$, it is called standard.
PDE of $\Nd(\b{\mu}, \b{\Sigma})$: $$ f(\b{x}) = \frac{1}{(2\pi)^{d/2} |\b{\Sigma}|^{1/2}} \exp\left( -\frac{1}{2} (\b{x} - \b{\mu})^\top \b{\Sigma}^{-1} (\b{x} - \b{\mu}) \right) $$ when $\b\Sigma=kI$, it is called spherical.
-
Hoeffding. i.i.d. $X_i\sim\mathcal{U}(-a,+a)$, $$ \boxed{\P\left[\left\lvert S_n - \E(S_n)\right\rvert\geq t \right] \leq2\exp\left( -\frac{t^2}{2na^2} \right)} $$
-
sub-Gaussian. i.i.d. $X_i$ s.t. $\forall \lambda$, $\E\left[\e^{\lambda(X_i-\E(X_i))}\right]\le\e^{\lambda^2\sigma^2/2}$, $$ \boxed{\P\left[\left\lvert S_n - \E(S_n)\right\rvert\geq t \right] \leq 2\exp\left( -\frac{t^2}{2n\sigma^2} \right)} $$
-
sub-Exponential. i.i.d. $X_i$ s.t. $\forall|\lambda|<\alpha^{-1}$, $\E\left[\e^{\lambda(X_i-\E(X_i))}\right]\le\e^{\lambda^2\nu^2/2}$, $$ \boxed{\P\left[\left\lvert S_n - \E(S_n)\right\rvert\geq t \right] \leq 2\exp\left(-\min\Set{\frac{t^2}{2n\nu^2},\frac{t}{2\alpha}}\right)} $$
sub-Gaussian is $(\sigma,0)$ sub-exp.
-
易证 $\E(|\b x|^2)=d$. 这玩意叫卡方分布($k$ 个标准正态的平方和记作 $\chi_k^2$)。
-
证明 $\chi_1^2$ 是 sub-exp with $(\nu,\alpha)=(2,4)$:
- MGF $\E[\e^{\lambda (Z-1)}]=\frac{\e^{-\lambda}}{\sqrt{1 - 2\lambda}}$.
- 取 $\ln$,为 $-\lambda-\frac12\ln(1-2\lambda)=-\lambda-\frac12\left(-2\lambda-2\lambda^2-\frac83(\theta\lambda)^3\right)=\lambda^2+\frac43\theta^3\lambda^3\le\lambda^2+\frac13\theta^3\lambda^2\le 2\lambda^2$.
-
$$ \P\left[\left\lvert|\b x|^2-d\right\rvert\ge\beta\sqrt{d}\right]\le 2\exp\left(-\min\Set{\frac{(\beta\sqrt d)^2}{8d},\frac{\beta\sqrt d}{8}}\right)=2\e^{-\beta^2/8} $$
证 2. Master tail bound theorem: i.i.d. $X_i$ s.t. $\E=0$ and $\V\le\sigma^2$. $0\le a\le \sqrt2n\sigma^2$, $|\E(X_i^s)|\le \sigma^2s!$ for $s=3\sim\lfloor a^2/4n\sigma^2\rfloor$, $$ \boxed{\P[|S_n|\ge a]\le 3\exp\left(-\frac{a^2}{12n\sigma^2}\right)} $$ We have $\left\lvert|\b x^2|-d\right\rvert=\left\lvert\sum_{i=1}^d(\b x_i^2-1)\right\rvert$, let $X_i=\frac{\b x_i^2-1}2$. $$ \begin{align*} |\E(X_i^s)|&\le\E(|X_i|^s)\\ &\le 2^{-s}\E(1+\b x_i^{2s})\\ &=2^{-s}(1+(2s-1)!!)\\ &\le s! \end{align*} $$ So, we can let $\sigma=2$, $a=\beta\sqrt d/2$, $|\E(X_i^s)|\le \sigma^2s!$ is easily satisfied, thus $$ \P\left[\left||\b x|^2-d\right|\ge\beta\sqrt d\right]=\P\left[\left|\sum_{i=1}^dX_i\right|\ge a\right]\le 3\e^{-\frac{\beta^2}{96}} $$ 证 3. Chernoff bound: $$ \P[X\ge a]\le\inf_{t\ge0}\frac{\E(\e^{tX})}{\e^{ta}} $$ Here $\E(\e^{tX})=M_X(t)$ is the MGF of $X$. Consider $Y=|\b x|^2$. $$ \begin{align*} M_Y(t)&=\E\left(\e^{tY}\right)\\ &=\E\left(\e^{t\sum_{i=1}^d\b x_i^2}\right)\\ &=\E\left(\prod_{i=1}^d\e^{t\b x_i^2}\right)\\ &=\left(\E\left(\e^{t\b x_1^2}\right)\right)^d\\ &=\left(\int_{-\infty}^{+\infty}\frac{1}{\sqrt{2\pi}}\e^{-x^2/2}\e^{tx^2}\d x\right)^d\\ &=\left(\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{+\infty}\e^{-(1/2-t)x^2}\d x\right)^d\\ &=\left(\frac{1}{\sqrt{2\pi}}\sqrt{\frac{\pi}{1/2-t}}\right)^d\\ &=\left(1-2t\right)^{-d/2} \end{align*} $$
$$ \begin{align*} \P\left[|\b x|^2\ge d(1+\eps)^2\right]&\le\frac{(1-2t)^{-d/2}}{\e^{td(1+\eps)^2}}\\ &=\exp\left(-\frac d2\ln(1-2t)-d(1+\eps)^2t\right)\\ &=\exp\left(d\ln(1+\eps)-d\eps\left(1+\frac\eps2\right)\right)&\left(t=\frac12\left(1-\frac1{(1+\eps)^2}\right)\right)\\ &\le\exp\left(d\eps-d\eps\left(1+\frac\eps2\right)\right)\\ &=\e^{-d\eps^2/2} \end{align*} $$
Take $Z=-Y$, we can similarly prove $\P\left[|\b x|^2\le d(1-\eps)^2\right]\le\e^{-d\eps^2/2}$. $$ \P\left[\left\lvert|\b x|-\sqrt d\right\rvert\ge\beta\right]=\P\left[|\b x|^2\ge d\left(1+\frac{\beta}{\sqrt d}\right)^2\right]+\P\left[|\b x|^2\le d\left(1-\frac{\beta}{\sqrt d}\right)^2\right]\le2\e^{-\beta^2/2}\quad(\eps=\beta/\sqrt d) $$
Proof. $f(\b v_i)-f(\b v_j)=f(\b v_i-\b v_j)$, then use RPT above. $3\e^{-ck\eps^2}\le 3n^{-3}$ then union bound, times $\binom n2$.
- 用球壳/GAT bound 模长;
- 用“体积集中在赤道”bound 点积;
- 同一个分布的两个向量差平方 $\le$ $2$ 倍模长$^2$ $+$ $2$ 倍点积;
- 不同个分布的两个向量差平方 $\ge$ $2$ 倍模长$^2$ $+$ $\delta^2$ $-$ $2$ 倍点积 $-$ $4\delta$ 倍点积;
- 只要 $\delta=\Omega(\log d/d^{1/4})$ 就能分离。
线代
Proof. 归纳。考虑 $W_k\ne V_k$,取 $\b w_k\in W_k\cap V_{k-1}^\perp$,将它扩展成 $W_k$ 的一组基 $\set{\b w_1,\cdots,\b w_k}$。由归纳假设, $$ \sum_{i=1}^k|A\b w_i|^2\le\sum_{i=1}^{k-1}|A\b v_i|^2+|A\b w_k|^2 $$ 由 $\b v_k$ 定义 $|A\b w_k|\le|A\b v_k|$。
Proof. 反证,找到最小的 $\b u_i\not\perp\b u_j$($i<j$),不妨设 $\b u_i\cdot\b u_j=\delta>0$。 $$ A\frac{\b v_i+\eps\b v_j}{|\b v_i+\eps\b v_j|}=\frac{\sigma_i\b u_i+\eps\sigma_j\b u_j}{\sqrt{1+\eps^2}}\Longrightarrow \b u_i\left(A\frac{\b v_i+\eps\b v_j}{|\b v_i+\eps\b v_j|}\right)=\frac{\sigma_i+\eps\sigma_j\delta}{\sqrt{1+\eps^2}}=\sigma_i+\sigma_j\delta\eps+\omicron(\eps^2) $$ 这与 $\b v_i$ 定义($\max.|A\b v_i|$)矛盾。
Let $A_k=\sum_{i\le k}\sigma_i\b u_i\b v_i^\top$.
Note. 当 $A$ 是实对称矩阵时,$\set{\sigma_i}=\set{\lvert\lambda_i\rvert}$,如果 $\lambda_i$ 是负的,则 $U$ 和 $V$ 的对应列符号相反。$A$ 有重复特征值时 $U$ 和 $V$ 不唯一。求 SVD 的手工方法是 $A^\top A=V\Sigma^2 V^\top$,对它做正交对角化。对称正定矩阵的特征值分解保证 $U=V$,但半正定不保证 $U=V$。
Proof. $$ \sum_{i\le k}A\b v_i\b v_i^\top=\sum_{i\le k}\sigma_i\b u_i\b v_i^\top=A_k $$
- $\|A\|_1$ 是 $A$ 的各列 $1$-范数的 $\max$。
- $\|A\|_2$(谱范数)是 $A$ 的奇异值 $\max$ (so $\lVert A-A_k\rVert_2=\sigma_{k+1}$)。
- $\|A\|_\infty$ 是 $A$ 的各行 $1$-范数的 $\max$。
- $\|A\|_{S_1}$ 是核范数。
- $\|A\|_{S_2}=\|A\|_F$。
- $\|A\|_{S_\infty}=\|A\|_2$。
注意:
-
奇异值 & 向量有两种定义方式:$\set{A\b v_i=\sigma_i\b u_i}$($\set{\b v_i}$、$\set{\b u_i}$ 分别单位正交,$\sigma_i\ge 0$),以及 $\max_{|\b v|=1}|A\b v|$ 这类。类似地,特征值 & 向量也有两种定义,第二种是 $\max_{|\b v|=1}\set{\b v^\top A\b v}$。
-
当特征值互异时,正交对角化唯一 up to 特征向量乘 $\pm 1$;奇异值互异时,SVD 也是一样。
-
方阵的左右特征值必然相同,左右特征向量一般不同。
-
对于正规矩阵($AA^\dagger=A^\dagger A$),$\sigma_i=|\lambda_i|$,否则反例:$A=E^{1,2}$。
-
$A$ 的所有单位特征向量和所有奇异向量完全相同(与此同时左右奇异向量相同)$\Longleftrightarrow$ $A$ 对称半正定。对称反例:$\mat{0&1\\1&0}$。
证明核心步骤:对于 $A=B^\top B$,设 $B=U\Sigma V^\top$,这里只证明最大右奇异向量 $=$ 最大单位特征向量:
$\color{white}\Longleftrightarrow$ $\b v$ 是 $A$ 的右奇异向量
$\Longleftrightarrow$ $\b v$ 最大化了 $|A\b v|$(定义)
$\Longleftrightarrow$ $\b v$ 最大化了 $\b v^\top A^\top A\b v=\b v^\top V\Sigma^4V^\top\b v=(V^\top\b v)^\top\Sigma^4(V^\top\b v)$
$\Longleftrightarrow$ $\b v$ 最大化了 $(V^\top\b v)^\top\Sigma^2(V^\top\b v)=\b v^\top B^\top B\b v$(这一步是因为 $V^\top\b v$ 是单位向量,对于单位向量 $\b u$ 而言,最大化 $\sum\sigma_i^4\b u_i^2$ 和最大化 $\sum\sigma_i^2\b u_i^2$ 是等价的,都必须只有 $\sigma$ 最大的那些部分对应的 $\b u$ 的分量不是 $0$)
$\Longleftrightarrow$ $\b v$ 最大化了 $|B\b v|$
$\Longleftrightarrow$ $\b v$ 是 $B$ 的右奇异向量(定义)
$\Longleftrightarrow$ $\b v$ 是 $B^\top B=A$ 的特征向量(奇异向量的求法)
SVD 的工业应用
- Sample a unit vector $\b x$.
- Calculate $(A^\top A)^k\b x$, $k=\Omega(-\eps^{-1}\log\eps)$. Every time normalize the resulting vector.
- The resulting vector $\b v$ is very likely to be a eigenvector corresponding to the greatest eigenvalue of $A$.
- $A\xleftarrow{-}A\b v\b v^\top$, goto 1.
Intuition: let $\b x=\sum c_i\b v_i$, $$ A^\top A=\left(\sum\sigma_i\b v_i\b u_i^\top\right)\left(\sum\sigma_i\b u_i\b v_i^\top\right)=\sum\sigma_i^2\b v_i\b v_i^\top\Longrightarrow\left(A^\top A\right)^k=\sum\sigma_i^{2k}\b v_i\b v_i^\top\Longrightarrow\left(A^\top A\right)^k\b x=\sum\sigma_i^{2k}c_i\b v_i $$ We can also do the first $k$ eigenvectors in parallel, just do Gram-Schmidt orthogonalization every time.
$$ \left\lvert\b w_\perp\right\rvert=\left\lvert\sum_{\sigma_i\le(1-\eps)\sigma_1}\sigma_i^{2k}c_i\b v_i\right\rvert\le(1-\eps)^{2k}\sigma_1^{2k}\sqrt{\sum_{\sigma_i\le(1-\eps)\sigma_1}c_i^2}\le(1-\eps)^{2k}\sigma_1^{2k} $$
$$ \text{ratio}\le\frac{(1-\eps)^{2k}}\delta\le\frac{\e^{-2k\eps}}\delta=\eps $$
稍微 bound 一下,根据不等式 $$ \frac{\Gamma(x+1/2)}{\Gamma(x)}<\sqrt x $$ 我们得到 $$ \boxed{\P[x_1\le\eps]<\sqrt{\frac{2(d-1)}\pi}\eps} $$ 这样就可以放心大胆地只随机单次 $\b x$ 了。
将一个数据投影到前 $r$ 个特征脸上: $$ \b x\sum_{i=1}^r\b v_i\b v_i^\top $$
- How large is the noise?
- How does the noise changes the singular vectors?
Bernstein inequality: independent zero-mean $X_i$ s.t. $|X_i|\le R$, $$ \boxed{\P\left[|S_n|\ge t\right]\le 2\exp\left(-\frac{t^2/2}{\sum\E(X_i^2)+Rt/3}\right)} $$ Bernstein inequality, self-adjoint matrix form: independent zero-mean self-adjoint $d\times d$ matrix $X_i$ s.t. $|X_i|_2\le R$, $$ \boxed{\P\left[|S_n|_2\ge t\right]\le 2d\exp\left(-\frac{t^2/2}{\left|\sum\E(X_i^2)\right|_2+Rt/3}\right)} $$ (这种东西说的是,$t$ 小的时候像 sub-Gaussian tail,$\e^{-\Theta(t^2)}$;$t$ 大的时候像 sub-exp tail,$\e^{-\Theta(t)}$)
Now, $$ A-P=\sum_{i\sim j}X_{i,j}(E^{i,j}+E^{j,i})+\sum_iX_iE^{i,i}+\sum_{i\nsim j}Y_{i,j}(E^{i,j}+E^{j,i}) $$ Here $X\sim\begin{cases}1-p,&\text{w.p. }p\\ -p,&\text{w.p. }1-p\end{cases}$, $Y\sim\begin{cases}1-q,&\text{w.p. }q\\ -q,&\text{w.p. }1-q\end{cases}$, so $$ \sum\E(Z_i^2)=\left(\frac n2p(1-p)+\frac n2q(1-q)\right)I_n $$ also all $|Z|_2\le 1$, so $$ \P\left[|A-P|_2\ge t\right]\le 2n\exp\left(-\frac{t^2/2}{n\max\set{p,q}+t/3}\right) $$ take $t=2\sqrt{n\max\set{p,q}\log n}$, $$ \P\left[|A-P|_2\ge 2\sqrt{n\max\set{p,q}\log n}\right]=\Omicron(n^{-1}) $$ which is small compared to $|P|_2=n(p+q)/2$.
Davis-Kahan theorem: symmetric matrices $M$, $\tilde M=M+E$, let the eigenvalues be $\lambda_1\ge\cdots\ge\lambda_n$ and $\tilde\lambda_1\ge\cdots\ge\tilde\lambda_n$, for $S\subseteq\set{1,\cdots,n}$, define the eigen-gap as $$ \gamma=\min_{i\in S,j\notin S}\set{|\lambda_i-\lambda_j|} $$ Let $V$, $\tilde V$ be the subspace generated by the eigenvectors of $M$, $\tilde M$ corresponding to $\lambda_S$, $\tilde\lambda_S$ respectively, then $$ \boxed{\left\lVert\sin\Theta(V,\tilde V)\right\rVert_2\le\frac{\|E\|_2}{\gamma}} $$ where $\Theta(V,\tilde V)$ is defined as $$ \Theta(V,\tilde V)=\diag\left(\theta_1,\cdots\theta_n\right),\cos\theta_1=\max_{\b v\in V,\b{\tilde v}\in\tilde V,|\b v|=|\b{\tilde v}|=1}\ip{\b v,\b{\tilde v}},\theta_{2\sim n}\text{ is defined similarly to singular values} $$ or, take orthonormal basis matrix $Q$, $\tilde Q$ of $V$, $\tilde V$, we have $$ \cos\theta_i=\sigma_i\text{ of }Q^\top\tilde Q $$ 这个事情套到 clustering 问题就相当于在说什么呢?由于 $|S|=1$ 时相当于考虑对应的单个特征向量之夹角,所以取 $S=\set{2}$,我们就知道,$A$ 的第二个特征向量和 $\b t/\sqrt n$ 差不太多。具体来说, $$ \gamma=\min\Set{qn,\frac{p-q}2n} $$ 所以 $$ \P\left[\left\lvert\sin\angle(\b t,\b v_2\text{ of }A)\right\rvert\le\frac{2\sqrt{\max\set{p,q}\log n}}{\min\set{q,(p-q)/2}\sqrt n}\right]=1-\Omicron(n^{-1}) $$ 考虑 $p\ge q\ge p-q$. 记 $\b{\hat t}:=\b v_2\text{ of }A$, $\eta$ 为“符号校正”参数, 下文 $\b t$, $\b{\hat t}$ 都认为已经单位化: $$ \eta=\operatorname*{argmax}_{\eta\in\set{\pm 1}}\langle{\eta\b{\hat t},\b t}\rangle $$ 错误个数 $$ \text{err}\le n\sum(\eta\b{\hat t}_i-\b t_i)^2=n|\eta\b{\hat t}-\b t|^2_2=2n(1-\langle\b{\hat t},\b t\rangle)\le2n(1-\langle\b{\hat t},\b t\rangle^2)=2n\sin^2\angle(\b{\hat t},\b t)\le\frac{32p\log n}{p-q} $$ with high Pr.
多个 cluster 的 clustering 方法跟这里讲的很不一样,参见 https://people.csail.mit.edu/dsontag/courses/ml14/notes/Luxburg07_tutorial_spectral_clustering.pdf。
马尔可夫链
- First-return time: $T_{i,j}=\inf\set{n\ge 1\mid X_n=i}\text{ when }X_0=j$
- Return probability: $f_{i,j}=\P[T_{i,j}<\infty]$
- # of visits: $N_{i,j}=\sum_{n\ge 0}[X_n=i]$
- $i$ is recurrent iff $f_i=1$
- 当 $i=j$ 时以上下标都只记一个 $i$。
- Property: $\E_i[N_i]=1/(1-f_i)$, so $i$ is recurrent iff $\E_i[N_i]=\infty$.
-
$1\text{-D}$ case: $$ \P[X_{2n}=0]=4^{-n}\binom{2n}n=\frac{1}{\sqrt{\pi n}}\left(1+\Omicron(n^{-1})\right)\Longrightarrow\E[N_0]=\sum_{n}\P[X_{2n}=0]\sim\sum_nn^{-1/2}=\infty $$ so $f_0=1$.
-
$2\text{-D}$ case (考虑组合恒等式或转 $45^\circ$): $$ \P[X_{2n}=(0,0)]=16^{-n}\binom{2n}{n}^2=\frac{1}{\pi n}\left(1+\Omicron(n^{-1})\right)\Longrightarrow\E[N_{(0,0)}]=\infty $$ so $f_{(0,0)}=1$.
-
For any $(x,y)$, it is also reached almost surely, because $\P[(0,0)\to(x,y)]\ne 0\Longrightarrow\E[N_{(0,0),(x,y)}]=\infty\Longrightarrow f_{(0,0),(x,y)}=1$.
-
$\ge 3\text{-D}$ case: approximately $\E[N_{(0,0,0)}]\sim\sum_nn^{-3/2}<\infty$, so we expect that it is not recurrent. Accurately, consider $$ \P[X_{2n}=\b 0]=[x_1^0\cdots x_k^0]\left(\frac{x_1+x_1^{-1}+\cdots+x_k+x_k^{-1}}{2k}\right)^{2n} $$ to get something like $[x^0]P(x)$, we can consider $\frac{1}{2\pi}\int_0^{2\pi}P(\e^{\i\theta})\d\theta$. So $$ \P[X_{2n}=\b 0]=\frac{1}{(2\pi)^k}\int_{[0,2\pi]^k}\left(\frac{\sum_{i=1}^k\cos x_k}{k}\right)^{2n}\d x $$ Notice that $2n+1$ does not contribute to the result, so we can also have $$ \E[N_{\b 0}]=\frac{k}{(2\pi)^k}\int_{[0,2\pi]}\left(k-\sum_{i=1}^k\cos x_k\right)^{-1} $$ For $k=3$, it's called Watson integral, and the result is $\approx 1.516$, leading to $f_{(0,0,0)}\approx 0.34$.
Note. 对于不可约的 Markov chain,它要么收敛到唯一的状态(无论初始如何),要么在某些状态之间震荡(依赖初始状态),最简单的考虑方法是考虑对角化(实际上不一定能对角化,https://math.stackexchange.com/q/332659),我们有个结论(Perron-Frobenius 定理)是:不可约的情况下,$|\lambda|\le 1$ 且所有 $|\lambda|=1$ 的根都是单根。于是可以想象,$\Lambda^n$ 在 $1$ 处不动,在其他 $\e^{2k\pi\i/d}$ 处震荡,其余 $\to 0$。
实际上上述说法可以感性理解。首先 $I/m$ 一定是个特征向量,然后后面的 fundamental theorem 说明对应 $\lambda=1$ 的特征空间维数为 $1$。如果 $|\lambda|=1$ 的部分代数重数 $>$ 几何重数,会造成 Jordan 块 $n$ 次方指数增长,就爆了。另外,除了 $\lambda=1$ 对应的特征向量之外,别的特征向量各个分量的和必为 $0$,可以考虑 $\b vP=\lambda\b v$ 然后把两边分量都加起来会得到 $s=\lambda s$。
总而言之,结论就是:如果 chain 是非周期性的,那么 $\b p(t)\to \b\pi$;否则就不行。严格证明首先用 P-F 定理,设出 Jordan 分解,就可以得到 $P^n\to\b 1\b\pi$。还有一种证明方法是 coupling。
注意这里加强了条件,所以这样的向量不总是存在。如果稳态分布满足该条件,则称它为 reversible. $P$ 对称一定是 reversible 的。
马尔可夫链蒙特卡洛方法
$$ P_{\b x,\b x}=1-\sum_{\b y}P_{\b x,\b y} $$
验证: $$ \pi_{\b x}P_{\b x,\b y}=\frac1d\frac{\pi_{\b x}\pi_{\b y}}{\P[\b x_1,\cdots,\b x_{i-1},\forall,\b x_{i+1},\cdots,\b x_n]}=\pi_{\b y}P_{\b y,\b x} $$
接下来讨论的都是无向图,即 $w_{x,y}=w_{y,x}$,记 $w_x=\sum w_{x,y}$,马尔可夫链 $p_{x,y}=w_{x,y}/w_x$,这时稳态分布 $\pi_x=w_x/\sum w_y$。
For the upper bound:
-
Let $\tau=-C(\ln\min\pi)/\Phi^2\eps^3$. Denote $a_i=\b a(t)_i$, $v_i=a_i/\pi_i$ (multiplicative error) and sort $v_i$s in decreasing order.
-
Now $\|\b a(t)-\b\pi\|_1=2\sum_{i\le i_0}(v_i-1)\pi_i=2\sum_{i>i_0}(1-v_i)\pi_i$, where $i_0$ is the split point between $\pi_i>1$ and $<1$.
-
$>i_0$ 的再大也大不过 $2\sum_{i>i_0}\pi_i$,如果它 $\le\eps/2$ 就完事了。
-
否则将 $\le i_0$ 的部分划分连续段 $G_1\sim G_?$。令 $\gamma=\sum\pi$(前缀和),$G_1=[1]$,每次从上次的末尾加一(记为 $k$)往后找到最后一个 $$ \sum_{j=k+1}^l\pi_j\le\frac{\eps\Phi\gamma_{k}}4 $$ 的 $l$,$G_{\text{next}}=[k\sim l]$。
-
已知 $\gamma_{l+1}-\gamma_{k}>\eps\Phi\gamma_{k}/4\Longrightarrow \gamma_{l+1}>(1+\eps\Phi/4)\gamma_{k}$,至少每次跳跃都乘了这个倍数,所以至多跳 $\log_{1+\eps\Phi/4}\pi_1\le-4\ln\pi_1/\eps\Phi$ 次。
-
现在我们只需 bound 每次的贡献即可。此处先得修改一下求和的顺序。令 $u_i$ 为 $G_i$ 开头的 $v$。 $$ \sum_{i\le i_0}(v_i-1)\pi_i\le\sum_i(u_i-1)\sum_{j\in G_i}\pi_j=\sum_i\pi(G_1\sim G_i)\cdot(u_i-u_{i+1}) $$ 其中 $u_{r+1}=1$。我们将证明求和中的每一项都 $\le 8/\eps\Phi\tau$。
-
对于 $G_r=[k\sim l]$:
-
By the proof of fundamental theorem of Markov chain, $$ \begin{align*} \frac2\tau&\ge\left\lVert\b a-\b aP\right\rVert_1\\ &\ge\sum_{i=1}^k(\b a-\b aP)_i\\ &=\sum_{i\le k}\sum_{j>k}(p_{i,j}a_i-p_{j,i}a_j)&(\text{imagine as flow})\\ &=\sum_{i\le k}\sum_{j>k}(p_{i,j}\pi_iv_i-p_{j,i}\pi_jv_j)\\ &=\sum_{i\le k}\sum_{j>k}p_{j,i}\pi_j(v_i-v_j)\\ &\ge\sum_{i\le k}\sum_{j>l}p_{j,i}\pi_j(v_i-v_j)\\ &\ge(v_k-v_{l+1})\sum_{i\le k}\sum_{j>l}p_{j,i}\pi_j\\ &=(u_r-u_{r+1})\sum_{i\le k}\sum_{j>l}p_{j,i}\pi_j \end{align*} $$
-
Dealing with the stupid $\sum\sum$: $$ \begin{align*} \sum_{i\le k}\sum_{j>l}p_{j,i}\pi_j&=\sum_{i\le k}\sum_{j>k}p_{j,i}\pi_j-\sum_{i\le k}\sum_{k<j\le l}p_{j,i}\pi_j\\ &\ge\sum_{i\le k}\sum_{j>k}p_{j,i}\pi_j-\sum_{j=k+1}^l\pi_j\\ &\ge\Phi\cdot\min(\pi(1\sim k),\pi(k+1\sim n))-\frac{\eps\Phi\gamma_k}4\\ &\ge\Phi\cdot\min(\gamma_k,\pi(i_0+1\sim n))-\frac{\eps\Phi\gamma_k}4\\ &\ge\Phi\cdot\gamma_k\cdot\pi(i_0+1\sim n)-\frac{\eps\Phi\gamma_k}4\\ &\ge\frac{\eps\Phi\gamma_k}4&\left(\text{by }\sum_{i\ge i_0}\pi_i>\frac\eps4\right) \end{align*} $$
-
Dividing: $$ u_r-u_{r+1}\le\frac{8}{\eps\Phi\gamma_k\tau} $$
$$ \sum_i\pi(G_1\sim G_i)\cdot(u_i-u_{i+1})\le-\frac{4\ln\pi_1}{\eps\Phi}\cdot\frac{8}{\eps\Phi\gamma_k\tau}\le\frac{32\eps}{C} $$
-
-
-
Yippee!
-
BTW this proof is as stupid as shit.
Proof. WLOG assume $\lambda_2=$ actual $\lambda_2$. Let $D=\diag(\pi)$. Although $P$ is not symmetric, $A=D^{1/2}PD^{-1/2}$ is symmetric by reversibility. So we have spectral decomposition $$ A=\sum\lambda_i\b v_i\b v_i^\top\Longrightarrow P^t=D^{-1/2}\sum\lambda_i^t\b v_i\b v_i^\top D^{1/2} $$ For some (row vector) $\b p_0$, $$ \b p_0P^t-\b\pi=\b p_0D^{-1/2}\sum\lambda_i^t\b v_i\b v_i^\top D^{1/2}-\b 1^\top D $$ For $i=1$, $\lambda_1=1$, $\b v_1=D^{1/2}\b 1$, so $$ \b p_0D^{-1/2}\b v_1\b v_1^\top D^{1/2}=\b p_0\b 1\b 1^\top D=\b 1^\top D $$ so $$ \b p_0P^t-\b\pi=\b p_0D^{-1/2}\sum_{i\ge 2}\lambda_i^t\b v_i\b v_i^\top D^{1/2} $$ 我们可以把 $|\b p_0P^t-\b\pi|_1$ 想象成一个高维凸多面体上离一个点的距离,最远的一定是顶点,因此只考虑 $\b p_0=\b e_x^\top$。 $$ \begin{align*} \left\lvert\left(\b e_x^\top D^{-1/2}\sum_{i\ge 2}\lambda_i^t\b v_i\b v_i^\top D^{1/2}\right)_y\right\rvert&=\left|\b e_x^\top D^{-1/2}\sum_{i\ge 2}\lambda_i^t\b v_i\b v_i^\top D^{1/2}\b e_y\right|\\ &\le\sqrt{\frac{\pi_y}{\pi_x}}\sum_{i\ge 2}|\lambda_i|^t|v_{i,x}||v_{i,y}|\\ &\le\sqrt{\frac{\pi_y}{\pi_x}}\lambda_2^t\sum_{i\ge 2}|v_{i,x}||v_{i,y}|\\ &\le\sqrt{\frac{\pi_y}{\pi_x}}\lambda_2^t\sqrt{\left(\sum_{i\ge 2}v_{i,x}^2\right)\left(\sum_{i\ge 2}v_{i,y}^2\right)}\\ &\le\sqrt{\frac{\pi_y}{\pi_x}}\lambda_2^t \end{align*} $$ 这里最后一个不等式是因为 $\set{\b v_i}$ 是一组单位正交基。现在 $$ \|\b p_0P^t-\b\pi\|_1\le\frac{\lambda_2^t}{\sqrt{\pi_x}}\sum\sqrt{\pi_y}\le\frac{\lambda_2^t}{\sqrt{\pi_x}}\sqrt{n} $$ 因此 $$ \max\lVert\b p_0P^t-\b\pi\rVert_1\le\lambda_2^t\cdot\sqrt n\cdot\max\frac{1}{\sqrt{\pi_x}}\le\frac{\lambda_2^t}{\pi_{\min}} $$ 所以可以要求 $t\ge\log_{\lambda_2}(\eps\pi_{\min})=\ln(\eps\pi_{\min})/\ln\lambda_2$,这里 $$ \ln\lambda_2=\ln(1-(1-\lambda_2))\le-\frac{1}{1-\lambda_2} $$
下界(不要问我为什么突然开始右乘,我也不知道):考虑 $P$ 的 $\lambda_2$ 对应的右特征向量 $\b v_2$(用于硬凑 $\|\b p_0P^t-\b\pi\|_1$ 形式)
$$
\lambda_2^t|(\b v_2)_x|=|(P^t\b v_2)_x|=\left|\sum_yP_{x,y}^t(\b v_2)_y\right|=\left|\sum_y(P_{x,y}^t-\pi_y)(\b v_2)_y\right|\le\|\b v_2\|_1\sum_y|P_{x,y}^t-\pi_y|
$$
其中 $\b\pi\cdot\b v_2=0$ 是因为 $P\b v_2=\lambda_2\b v_2$,而 $\b\pi^\top\lambda_2\b v_2=\b\pi^\top P\b v_2=\b\pi^\top\b v_2$。现在注意到
$$
\lVert\b e_xP^t-\b\pi\rVert_1=\sum_y|P_{x,y}^t-\pi_y|
$$
取 $x=\operatorname{argmax}|(\b v_2)_x|$,得到
$$
\eps\ge\lambda_2^{\tau(\eps)}\Longrightarrow\tau(\eps)\ge\log_{\lambda_2}\eps=\frac{\ln(1/\eps)}{\ln(1/\lambda_2)}\ge\frac{\ln(1/\eps)}{1/\lambda_2-1}=\left(\frac{1}{1-\lambda_2}-1\right)\ln\frac1\eps
$$
- clique: $\Phi=\frac12$.
- 无向连通图: $\Phi\ge\frac1m$, $\pi_{\min}\ge\frac1{2m}$.
- two clique connected by one edge: $\Phi=\frac{1}{n^2-n+1}$, $1-\gamma_2=\Theta(n^{-2})$.
- one clique + one vertex with one edge: $\tau=\Omicron(\log(n\eps^{-1}))$.
- 1D path/cycle: $\Phi=\frac1n$, $1-\gamma_2=1-\cos\frac{2\pi}{n}=\Theta(\frac1{n^2})$.
- 2D $n\times n$ grid: $\Phi=\Theta(\frac1n)$.
- dD $n^d$ grid: $\Phi=\Theta(\frac{1}{nd})$ ($S$ takes $x_1\in[1,n/2]$, $x_2\sim x_d\in[1,n]$).