Branched Evolution

Competitive Programming in Python

経験過程の中心極限定理

概要

ベイズ統計の理論と方法」8章の経験過程についての解説。

www.coronasha.co.jp

主定理

$X_1,\ldots,X_n,X$ を可測空間 $\mathcal{X}$ に値をとる確率変数で、独立に分布 $P$ に従うとする。パラメータの集合 $W \subset \mathbb{R} ^ d$ をコンパクト、$f$ を $\mathcal{X} \times W$ から $\mathbb{R}$ への関数とし、各 $x \in \mathcal{X}$ に対して $f(x,\cdot)$ は $C ^ 1$ 級とする。$\nabla f(x,w)$ は $w$ に関する微分を表す。 $$ E\left[\sup_{w\in W} \left\| f(X,w) \right\| ^ 2 \right] < \infty $$

$$ E\left[\sup_{w\in W} \left\| \nabla f(X,w) \right\| ^ 2 \right] < \infty $$

が成り立つならば、$W$ 上の確率過程

$$ \frac{1}{\sqrt{n}}\sum _ {i=1} ^ {n} \left( f(X_{i},w)-E[f(X,w)] \right) $$

が $W$ 上のガウス過程に弱収束する。

準備

主定理を示すための経験過程の一般論を述べる。詳しくは

link.springer.com

を参照されたい。

経験過程

$P$ に関して $L ^ 2$ 可積分な関数 $f \colon \mathcal{X} \rightarrow \mathbb{R}$ に対して、 $$ Pf=\int f(X) dP $$

$$ P_{n }f = \frac{1}{n} \sum _ {i=1} ^ n f(X _ i) $$ とすると、$\sqrt{n}(P _ {n}-P)$ は$L ^ 2$ 可積分な関数の族 $\mathcal{F}$ 上の確率過程とみなせて、これを経験過程という。$\sqrt{n}(P _ {n}-P)$ が $\mathcal{F}$ 上のガウス過程に弱収束するとき、$\mathcal{F}$ をドンスカークラスという。$\mathcal{F}$ がドンスカークラスになるための条件は様々なものが知られているが、ここではブラケティングエントロピーを用いるものを紹介する。

ブラケティングエントロピー

$\varepsilon > 0$ と $\| l - u \| _ {L ^ 2} < \varepsilon$ なる $l,u \in L ^ 2$ に対して、 $$ \left[l,u\right] = \{ f \in L ^ 2 \mid \forall x \in \mathcal{X}, \ l(x) \leq f(x) \leq u(x) \} $$ を $\varepsilon$-ブラケットという。 $$ \mathcal{F} \subset \bigcup _ {k = 1} ^ N \left[l _ k,u _ k\right] $$ なる最小の $N$ を $\mathcal{F}$ の $\varepsilon$-ブラケティングナンバーといい、$N _ {[ ]} (\mathcal{F},\varepsilon)$ で表す。

$\delta > 0$ に対して、 $$ J _ {[ ]} (\mathcal{F}, \delta) = \int _ {0} ^ {\delta} \sqrt{\log N _ {[ ]} (\mathcal{F},\varepsilon)} \mathrm{d}\varepsilon $$ をブラケティングエントロピーという。

ドンスカーの定理 ある $\delta > 0$ に対して、$J _ {[ ]} (\mathcal{F}, \delta) < \infty$ が成り立つならば、$\mathcal{F}$ はドンスカークラスである。

主定理の証明

主定理は $\mathcal{F} = \{ f(\cdot,w) \mid w \in W \}$ がドンスカークラスであることを表している。$\varepsilon > 0$ を固定する。$W$ が $N(\varepsilon)$ 個の半径 $\epsilon$ のボールで覆えたとし、それらの中心を $w _ 1,\ldots,w _ {N(\varepsilon)}$ とすると、任意の $w \in W$ に対して、$k \leq N(\varepsilon)$ が存在し、$\| w - w _ k \| \leq \varepsilon$ が成り立つ。 $$ C(x) = \sup _{w\in W} \| \nabla f(x,w) \| $$ とおくと、$C$ は $L ^ 2$ 可積分で、平均値の定理から、任意の $w \in W$ に対して、$k \leq N(\varepsilon)$ が存在し、 $$ \| f(x,w) - f(x,w _ {k}) \| \leq C(x) \| w - w _ {k} \| < \varepsilon C(x) $$ が成り立つ。 $$ l _ k (x) = f(x, w _ k) - \varepsilon \frac{C(x)}{2 \| C \| _ {L ^ 2}} $$ $$ r _ k (x) = f(x, w _ k) + \varepsilon \frac{C(x)}{2 \| C \| _ {L ^ 2}} $$ とおくと、$\varepsilon$-ブラケットが作れる。 また、$\mathbb{R}^d$ の有界閉集合を覆うのに必要な半径 $\varepsilon$ のボールの個数は $(1/\varepsilon) ^ d$ の定数倍であるので、ある定数 $K > 0$ が存在して、 $$ N _ {[ ]} (\mathcal{F},\varepsilon) < K\left( \frac{1}{\varepsilon} \right) ^ d $$ と表せ、積分 $$ \int _ {0} ^ {1} \sqrt{\log K\left( \frac{1}{\varepsilon} \right) ^ d } \mathrm{d}\varepsilon $$ は有限の値をとるから、$J _ {[ ]} (\mathcal{F}, 1) < \infty$ より、$\mathcal{F}$ はドンスカークラスである。