今天补充一些有关均值方差的公式和高斯分布的一些性质。

Some Formulas of Mean and Variance

定理一： We consider two random variables $X$ and $Y$

$$ \begin{aligned} E(X+Y) &= E(X) + E(Y)\\ V(X\pm Y) &= V(X) \pm 2Cov(X,Y)+V(Y)\\ Cov(X,Y)&=E(XY)-E(X)E(Y) \end{aligned} $$

定理二： When $X$ is indenpendent of $Y$

$$ \begin{aligned} E(XY) &= E(X)E(Y)\\ V(X \pm Y) &= V(X) + V(Y)\\ Cov(X,Y)&=0 \end{aligned} $$

定理三： For $n$ random variables $X_1,…,X_n$

$$ \begin{aligned} E(\sum_{i}a_iX_i) &= \sum_{i}a_i\mu_i\\ V(\sum_{i}a_iX_i) &= \sum_{i}\sum_{j}a_ia_jCov(X_i,X_j) \end{aligned} $$

where $E(X_i)=\mu_i$ and $a_i$ is a constant value. When $X_1,…,X_n$ are mutually independent, we have the following:

$$ V(\sum_{i}a_iX_i) = \sum_{i}a_i^2V(X_i) $$

Transformation of Variables

When a distribution of $X$ is known, we can find a distribution of $Y$ using the transformation of variables, where $Y$ is a function of $X$.

定理四： Distribution of $Y = \phi^{(-1)}(X)$: Let $f_x(x)$ be the pdf of $X$ and $X=\phi(Y)$ be a one-to-one transformation, then the pdf of $Y$ is given by

$$ f_y(y) = |\phi'(y)|f_x(\phi(y)) $$

Example: $X\sim N(0,1),Y = \mu + \sigma X$

Since we have

$$ X = \phi(Y) = \frac{Y-\mu}{\sigma},f_x(x)=\frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}x^2) $$

then $\phi’(y)=1/\sigma$

$$ f_y(y) = \frac{1}{\sqrt{2\pi}|\sigma|}exp(-\frac{(y-\mu)^2}{2\sigma^2}) $$

which indicates the normal distribution with mean $\mu$ and variance $\sigma^2$, denoted by $N(\mu,\sigma^2)$.

Multivariate Case

Let $f_x(x_1,…,x_n)$ be a joint pdf of $(X_1,…,X_n)$, and a one-to-one transformation from ($X_1,…,X_n$) to ($Y_1,…,Y_n$) is given by

$$ \begin{aligned} X_1 &=\phi_1(Y_1,...,Y_n)\\ &...\\ X_n &=\phi_n(Y_1,...,Y_n) \end{aligned} $$

then we obtain a joint pdf of $Y_1,…,Y_n$

$$ f_y(y_1,...,y_n) = |J|f_x(\phi_1(y_1,...,y_n),...,\phi_n(y_1,...,y_n)) $$

where $J$ is the Jacobian of the transformation.

$$ J=\left|\begin{array}{cccc}{\frac{\partial x_{1}}{\partial y_{1}}} & {\frac{\partial x_{1}}{\partial y_{2}}} & {\cdots} & {\frac{\partial x_{1}}{\partial y_{n}}} \\ {\frac{\partial x_{2}}{\partial y_{1}}} & {\frac{\partial x_{2}}{\partial y_{2}}} & {\cdots} & {\frac{\partial x_{2}}{\partial y_{n}}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {\frac{\partial x_{n}}{\partial y_{1}}} & {\frac{\partial x_{n}}{\partial y_{2}}} & {\cdots} & {\frac{\partial x_{n}}{\partial y_{n}}}\end{array}\right| $$

Gaussian Distribution

极大似然估计

说起高斯分布大家都很熟悉了，假设一个 $p$ 维变量 $x \in R^p$ 满足高斯分布 $N(\mu,\Sigma)$，则其概率密度函数可以表示为

$$ p(x)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}} exp(-\frac{1}{2}(x-\mu)^T \Sigma^{-1}(x-\mu)) $$

当有样本数据 $X_{N \times p}=(x_1,…,x_N)^T$ 时，我们能通过极大似然法估计高斯分布的均值和方差，即

$$ \theta_{MLE}=\arg\max_{\theta}p(X|\theta) $$

假设 $x_i$ 服从独立同分布 (i.i.d)，则

$$ \log p(X|\theta) = \sum_{i=1}^N \log p(x_i|\theta) $$

为了便于计算假设 $p=1$ 且真实高斯分布为 $N(\mu,\sigma^2)$，通过极值条件 (令导数为0) 可以得到

$$ \begin{aligned} \mu_{MLE}&=\frac{1}{N}\sum_{i=1}^Nx_i\\ \sigma^2_{MLE}&=\frac{1}{N}\sum_{i=1}^N(x_i-\mu_{MLE})^2 \end{aligned} $$

其中,

均值是无偏估计 $E(\mu_{MLE}) = \mu$

方差是有偏估计 $E(\sigma_{MLE}^2)=\frac{N-1}{N}\sigma^2$，也就是说极大似然估计出来的高斯分布的方差是偏小的。

从概率密度函数的角度看高斯分布

注意到高斯分布的概率密度函数 $p(x)$ 本质是关于 $x$ 的函数，且和 $x$ 有关的部分为：

$$ \Phi \triangleq (x-\mu)^T\Sigma^{-1}(x-\mu) $$

一般来说 $\Sigma$ 是半正定矩阵，为了便于分析其性质，这里假设其为正定矩阵，对其进行特征值分解：

$$ \Sigma=U\Lambda U^T=\sum_{i=1} ^pu_i\lambda_iu_i^T $$

其中，$U=(u_1,…,u_p),UU^T=U^TU=I,\Lambda=diag(\lambda_i)$

则方差矩阵的逆为

$$ \Sigma^{-1}=(U\Lambda U^T)^{-1}=U\Lambda^{-1}U^T=\sum_{i=1}^pu_i\frac{1}{\lambda_i}u_i^T $$

定义 $y_i=(x-\mu)^Tu_i$，可以将 $y_i$ 看作是 $x$ 去均值后在向量 $u_i$ 上的投影，则 $\Phi$ 可以表示为

$$ \Phi = (x-\mu)^T\Sigma^{-1}(x-\mu)=(x-\mu)^T\sum_{i=1}^pu_i\frac{1}{\lambda_i}u_i^T(x-\mu)=\sum_{i=1}^p\frac{y_i^2}{\lambda_i} $$

为了便于展示我们取 $p=2$，并令 $\Phi=1$ 可以发现

$$ \frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2} = 1 $$

竟然是一个椭圆！

也就是说指定了 $\Phi$ 的值，相当于能够得到高斯分布的等高线。

Matlab code

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60


 clear;
 clear all;
 clf

 mu = [1,2];
 Sigma = [1,0.5;0.5,2];
 X = mvnrnd(mu,Sigma,500); % 从高斯分布中生成样本
 scatter(X(:,1),X(:,2))
 [U,Lambda] = eig(Sigma)；
 u1 = U(:,1); % 对应博客中的投影向量
 u2 = U(:,2);
 lambda1 = Lambda(1,1); % 对应博客中的椭圆长短轴
 lambda2 = Lambda(2,2);

 X1 = [];
 X2 = [];
 % 采用暴力搜索来获取使得\Phi = 1的横纵坐标
 for x1 = -3:.01:5
     for x2 = -4:.01:5
         phi = (([x1,x2] - mu)*u1)^2/lambda1 + (([x1,x2] - mu)*u2)^2/lambda2;
         if phi <= 1.01 && phi >= 0.99
             X1 = [X1;x1];
             X2 = [X2;x2];
         end
     end
 end
             
 hold on 
 scatter(X1,X2)

 X1 = [];
 X2 = [];
 % 采用暴力搜索来获取使得\Phi = 2的横纵坐标
 for x1 = -3:.01:5
     for x2 = -4:.01:5
         phi = (([x1,x2] - mu)*u1)^2/lambda1 + (([x1,x2] - mu)*u2)^2/lambda2;
         if phi <= 2.01 && phi >= 1.99
             X1 = [X1;x1];
             X2 = [X2;x2];
         end
     end
 end
             
 hold on 
 scatter(X1,X2)

 % 画出投影向量
 x = 1:2:3;
 k1 = u1(2)/u1(1);
 k2 = u2(2)/u2(1);
 y1 = k1*(x-mu(1))+mu(2);
 y2 = k2*(x-mu(1))+mu(2);
 plot(x',y1','LineWidth',2)
 plot(x',y2','LineWidth',2)
 xlim([-2, 5]);
 ylim([-2, 5]);
 axis square
 legend('data','\Phi=1','\Phi=2','u1','u2')
 xlabel('x1')
 ylabel('x2')

高斯分布的局限性

协方差矩阵 $\Sigma$ 中的参数个数太多 $p(p+1)/2 = O(p^2)$；可以采用对角化或各向同性的假设。
单高斯分布来拟合数据不合理；可以采用混合高斯模型。

已知联合概率求边缘概率和条件概率

已知

$$ x=\left(\begin{array}{l}{x_{a}} \\ {x_{b}}\end{array}\right), \mu=\left(\begin{array}{l}{\mu_{a}} \\ {\mu_{b}}\end{array}\right),\Sigma=\left(\begin{array}{ll}{\Sigma_{a a}} & {\Sigma_{a b}} \\ {\Sigma_{b a}} & {\Sigma_{b b}}\end{array}\right) $$

求 $p(x_a),p(x_b|x_a)$。可以采用配方法(见PRML，过于复杂)，这里采用构造定义法。

定义 $A = (I_m \quad 0)$，则 $x_a = Ax$

$$ \begin{aligned} E[x_a]&=AE[x]=\mu_a\\ Var[x_a]&=A\Sigma A^T=\Sigma_{aa} \end{aligned} $$

所以边缘概率分布为

$$x_a \sim N(\mu_a,\Sigma_{aa})$$

定义

$$x_{b.a}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a$$

$$A=(-\Sigma_{ba}\Sigma_{aa}^{-1} \quad I)$$

则 $x_{b.a}=Ax$

$$ \begin{aligned} E[x_{b.a}]&=AE[x]=\mu_b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a\\ Var[x_{b.a}]&=A\Sigma A^T = \Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \end{aligned} $$

则可以得到 $x_{b.a}$ 的分布，又因为

$$x_b=x_{b.a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$$

条件分布的均值和方差可以表示为

$$ \begin{aligned} E[x_b|x_a] &= E[x_{b.a}] + \Sigma_{ba}\Sigma_{aa}^{-1}x_a\\ Var[x_b|x_a] &= Var[x_{b.a}] \end{aligned} $$

因此条件概率分布为

$$ x_b|x_a \sim N(\mu_b+\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a),\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}) $$

已知边缘概率和条件概率求联合概率

已知

$$ \begin{aligned} p(x)&=N(x|\mu,\Lambda^{-1})\\ p(y|x)&=N(y|Ax+b,L^{-1}) \end{aligned} $$

求 $p(y),p(x|y)$

定义 $y=Ax+b+\epsilon,\epsilon \sim N(0,L^{-1})$

则 $y$ 的边缘概率为

$$ \begin{aligned} E[y]&=E[Ax+b] + E[\epsilon] = A\mu+b\\ Var[y]&=Var[Ax+b]+Var[\epsilon]=A\Lambda^{-1}A^T+L^{-1} \end{aligned} $$

即

$$ y \sim N(A \mu +b, A\Lambda^{-1}A^T+L^{-1}) $$

要求 $p(x|y)$ 可以构造联合分布，在利用联合概率求条件概率

构造

$$ Z=\left(\begin{array}{l}{x} \\ {y}\end{array}\right) \sim \mathcal{N}\left(\left[\begin{array}{c}{\mu} \\ {A \mu+b}\end{array}\right],\left[\begin{array}{cc}{\Lambda^{-1}} & {\Delta} \\ {\Delta} & {L^{-1}+A \Lambda^{-1} A^{T}}\end{array}\right]\right) $$

也就是只要求出 $x$ 和 $y$ 之间的协方差 $\Delta$ 就能够知道它们的联合分布了。根据协方差的定义来求解

$$ \begin{aligned} \Delta &= Cov(x,y)\\ &=E[(x-E[x])(y-E[y])^T]\\ &=E[(x-\mu)(Ax+b+\epsilon-(A\mu+b))^T]\\ &=E[(x-\mu)(Ax-A\mu+\epsilon)^T]\\ &=E[(x-\mu)(Ax-A\mu)^T+(x-\mu)\epsilon^T]\\ &=E[(x-\mu)(x-\mu)^T]A^T+E[(x-\mu)]E[\epsilon]\\ &=Var[x]A^T+0\\ &=\Lambda^{-1}A^T \end{aligned} $$

这样完整的联合分布就得到了，代入上一节 $x_b|x_a$ 的公式即可得到 $p(x|y)$ 的概率分布了。