正态分布的样本方差服从卡方分布

· · 个人记录

已知 X_1,\cdots,X_n 独立同分布于标准正态分布,求证:

\left(\sum_{i=1}^n(X_i-\overline X)^2\right) \sim \chi^2(n-1)

其中 \chi^2(n) 描述了 n 个服从 N(0,1) 的独立随机变量的平方和的分布。

首先将原式写为

-n \overline X^2+\sum_{i=1}^nX_i^2

\bold x 为向量 (X_1,\cdots,X_n)^{\text T},上式可以写为二次型的形式

\bold x^{\text T}\begin{bmatrix} 1-1/n & -1/n & -1/n & \cdots & -1/n \\ -1/n & 1-1/n & -1/n & \cdots & -1/n \\ -1/n & -1/n & 1-1/n & \cdots & -1/n \\ \cdots & \cdots &\cdots &\cdots &\cdots \\ -1/n & -1/n & -1/n & \cdots & 1-1/n \end{bmatrix}\bold x

中间这个大矩阵记为 A,容易发现它有 n-1 重特征值 1,和 1 重特征值 0。实对称矩阵必然可以对角化,所以可以求出其特征向量组成的矩阵 P,再对其应用施密特正交化方法,求出正交矩阵 Q 使得

QAQ^{\text T}= \Lambda

其中 \Lambda 为对角阵,由 A 的特征值组成。将二次型化为标准型:

\bold x^{\text T}A\bold x=(Q\bold x )^\text T \Lambda (Q \bold x)

\bold y = Q\bold x,有

Y_i=\sum_{j=1}^nQ_{i,j}X_j

因为 Q 是正交矩阵,行列向量都是单位向量。再根据两个服从正态分布的变量之和的方差,就是它们的方差之和,故 Y_i \sim N(0,1)

如此,原式化为了 n-1 个服从 N(0,1) 的随机变量的平方和(因为有一个 0 特征值,所以少了一个)。如果它们是相互独立的,那就直接证出来了。所以有如下结论:

先来证明 \text{cov}(Y_i,Y_j)=0,即:

\text E[Y_iY_j]=\text E[Y_i]\text E[Y_j]

显然 \text E[Y_i]=\text E[Y_j]=0,因为它们都服从 N(0,1)。要求 \text E[Y_iY_j],可以考虑将其展开,用 X 来表示。由于线性组合的系数向量正交,所有 X_i^2 项的系数之和为零;而所有 X_iX_j \ (i \neq j) 的项的系数并不重要,在计算期望时逐项积分,这两项可以分离开来分别积,每项都是零。因此 \text E[Y_iY_j]=0

于是 $Y_1,\cdots,Y_{n-1}$ 就是相互独立的,它们的平方和服从 $\chi^2(n-1)$。