一些概率分布

LWLAymh · 2025-10-15 14:26:41 · 学习·文化课

本文大概讲一下几种分布在现实意义上的联系.注意下述讲的都不是严格定义,而只是一种理解.

感谢cqgg为我讲了一晚上各种分布(不过也许我还是没get到精髓,因此下面写错了的话与他无关QAQ).

提纲(?)

为此,我们必将从伯努利分布入手.现在假设事件A在每一次独立实验中,有p的概率发生,有1-p的概率不发生.则:

二项分布\mathrm{B}(n,p):重复独立n次实验,A发生k次的概率.P(X=k)=\binom{n}{k}p^k(1-p)^{n-k},E(X)=pn,\sigma^2(X)=np(1-p).
几何分布\mathrm{G}(p):不断重复实验,A第一次发生的时刻.P(X=k)=p(1-p)^{k-1},E(X)=\frac{1}{p},\sigma^2(X)=\frac{1-p}{p^2}.
负二项分布\mathrm{NB}(r,p):不断重复实验,A第r次发生的时刻.P(X=k)=\binom{k-1}{r-1}(1-p)^{k-r}p^r,E(X)=\frac{r}{p},\sigma^2(X)=\frac{r(1-p)}{p^2}.
泊松分布\pi(\lambda):二项分布的极限.重复独立n次实验,每次成功的概率是\frac{\lambda}{n}.考虑取n\to \infty的时候,P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},E(X)=\lambda,\sigma^2(X)=\lambda.
指数分布\mathrm{EXP}(\lambda):几何分布的极限.f(x)=\begin{cases}\lambda e^{-\lambda x}&x\geq 0\\0&x<0\end{cases},F(X)=\begin{cases}1-e^{-\lambda x}&x\geq 0\\0&x<0\end{cases},E(X)=\frac{1}{\lambda},\sigma^2(X)=\frac{1}{\lambda^2}.
伽马分布\Gamma(\alpha,\lambda):负二项分布的极限.f(x)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},E(X)=\frac{\alpha}{\lambda},\sigma^2(X)=\frac{\alpha}{\lambda^2}.

ps:特别地,对于伽马分布,我们下面一般只讨论\alpha\in \mathbb{N_+},也即\Gamma(k)=(k-1)!的情形.

离散分布之间的关系

如上所说,负二项式分布和二项式分布之间是某种"交换变量"(这个词是我瞎编的)的关系.换句话说,二项式分布是给定试验次数,随机变量是发生次数;而负二项式分布则是给定发生次数,随机变量是试验次数.

下面我们将会看到,这也是为什么泊松分布是离散分布而伽马分布是连续分布.它们其实都是在把"试验次数"极限化变成时间这种连续量.然而,泊松分布的随机变量还是发生次数,这总是离散的;而伽马分布的随机变量却因此变成了发生时间,这自然变成连续的了.

此外,负二项式分布应当是几何分布的某种推广.当Y\sim \mathrm{NB}(r,p),X\sim \mathrm{G}(p),比较显然的是由期望的线性性,E(Y)=rE(X);此外,方差是独立可加的.而几何分布正满足某种"无记忆性"或者"无后效性":由于P(X> n)=(1-p)^n,所以有P(X>n+m|X>n)=P(X>m).因此,也应该能看出\sigma^2(Y)=r\sigma^2(X).

泊松分布

先来说动机:我们上面刻画的都是"若干次实验"的分布.但在现实生活中,"实验次数"并不总是离散的.例如:有个东西有一定的概率密度坏掉,那我想问它在某个时间段坏了几次,或者还可以问第一次坏掉在某事件的概率.

现在我们来看泊松分布.如果仅仅把泊松分布理解为二项分布的极限,那可能会完全看不懂这个东西是在干什么的(也可能只有我看不懂).一个更好的做法显然是给出若干该分布应当满足的很好的性质,再去反推泊松分布的公式.

一开始我想到的定义是: 对于任意时间区间[a,b],在这段时间上发生事件的期望数量总是\lambda(b-a),其中\lambda是一个固定的常数.

但这个定义并不好,首要的就是它忽略了独立性.cqgg给出了如下反例:在[0,\frac{1}{\lambda})中随机一个偏移量\delta,然后在每个\delta+\frac{1}{\lambda}的时候使事件发生.

正确的定义泊松分布的做法,是从如下三个性质入手(参考[李贤平概率论基础]):

平稳性: 在[t_0,t_0+t)时间段中,来到的呼叫数只与t有关,而与t_0无关.若设P_k(t)为t时间长度内发生k次事件的概率,则\forall t,\sum_k P_k(t)=1.
无后效性(独立增量性): 在[t_0,t_0+t)内发生任何事件,都与t_0之前的事情无关.
普通性: 在充分小的时间内,只应该发生一次事件.或者说,记\psi(t)=\sum_{k\geq 2}P_k(t),则\lim_{t\to 0}\frac{\psi(t)}{t}=0.或者说,1-P_0(t)-P_1(t)=o(t).

现在我们已经有了上述三条性质,来看我们是否可以唯一确定泊松分布的表达式(当然,由于这是一个分布,它也应该满足分布的一些性质).为了展示它们分别的作用,下述将以(1)(2)(3)代指它们.于此之前我们还需要一条引理:

若f(t)是连续函数,且\forall x,y, f(x)f(y)=f(x+y),则\exists a>0,f(t)=a^t.

证明无非是先确定f(x)=\left(f(\frac{x}{2})\right)^2\geq 0,再设f(1)=a后确定f(\frac{1}{n})=a^{\frac{1}{n}},最后就可以确定f(\frac{n}{m})=a^{\frac{n}{m}},再用连续性逼近一下,不再赘述.

现在来看P_k(t+\Delta t),也就是在[0,t+\Delta t)中的结果.(1)(2)共同给出:

P_n(t+\Delta t)=\sum_{k=0}^n P_k(\Delta t)P_{n-k}(t)

特别地,考虑P_0(t_1+t_2)=P_0(t_1)P_0(t_2),根据引理这给出P_0(t)=a^t,a\geq 0.由于这是概率,所以0\leq a\leq 1,其中a=0表示不管多么小的间隔总要来呼叫,与(3)矛盾.a=1则意味着永不来呼叫,太过平凡(也就对应\lambda=0),我们下面不着重讨论.因此我们下面考虑0<a<1的情况.此时就总能找到一个\lambda >0,使得a=e^{-\lambda},即P_0(\Delta t)=e^{-\lambda \Delta t}=1-\lambda \Delta t+o(\Delta t).由(3),导出P_1(\Delta t)=\lambda \Delta t+o(\Delta t).从而:

\begin{aligned} P_n(t+\Delta t)&=P_0(\Delta t)P_n(t)+P_1(\Delta t)P_{n-1}(t)+o(\Delta t)\\ &=(1-\lambda \Delta t)P_n(t)+\lambda \Delta tP_{n-1}(t)+o(\Delta t)\\ \frac{P_n(t+\Delta t)-P_n(t)}{\Delta t}&=\lambda(P_{n-1}(t)-P_n(t))+o(1)\\ P_n'(t)&=\lambda (P_{n-1}(t)-P_n(t)) \end{aligned}

由于已知P_0(t)=e^{-\lambda t},从而可以由上数学归纳推导出P_n(t)=\frac{(\lambda t)^n}{n!}e^{-\lambda t}.

为何上述条件的确能导出长度为t的时间中,事件发生的期望一定为\lambda t呢?这一点应当是由平稳性决定的.不妨设E(t)是长度为t的时间区间上的期望.此时,应当(不管是否独立)有E(x+y)=E(x)+E(y).这就已经足够了.不妨设单位长度时间区间的期望是\lambda,则显然E(1)=nE(\frac{1}{n}),可以推导出E(\frac{n}{m})=\frac{n}{m}\lambda ,连续性就可以导出E(t)=\lambda t.

此外,请看\lim_{\Delta t\to 0}\frac{P_1(\Delta t)}{\Delta t}\to \lambda,这看上去就像是"某个时刻"发生该事件的概率密度是\lambda,虽然这其实是一个并不严谨的描述.

一些其它的泊松分布

如上所说,X\sim \pi(\lambda)表示一段时间内发生某个事件的次数.如果我在此基础上,要求每个事件有p的概率发展成A面,1-p的概率发展成B面.那此时,讲道理,一个自然的想法是A\sim \pi(p\lambda ).策略是硬算,不再赘述了.

连续分布之间的关系

先来看从泊松分布中推出指数分布.显然,如果X\sim \mathrm{EXP}(\lambda),则P(X\leq t)也就等价于 "在[0,t)这段时间内,发生过至少一次事件" ,如果Y\sim \pi(\lambda t),这也就等价于P(Y\geq 1),从而P(X\leq t)=1-P(Y=0)=1-e^{-\lambda t}.

泊松分布还可以推出伽马分布.与上面类似,若X\sim \Gamma(n,\lambda),则当然:

\begin{aligned} F(t)&=P(X\leq t)\\ &=1-\sum_{k=0}^{n-1}P(Y=k)\\ &=1-\sum_{k=0}^{n-1}\frac{(\lambda t)^k}{k!}e^{-\lambda t}\\ &=1-e^{-\lambda t}-\sum_{k=1}^{n-1}\frac{(\lambda t)^k}{k!}e^{-\lambda t}\\ f(t)&=\lambda e^{-\lambda t}+\lambda \sum_{k=1}^{n-1}\frac{(\lambda t)^k}{k!}e^{-\lambda t}-\lambda \sum_{k=0}^{n-2}\frac{(\lambda t)^k}{k!}e^{-\lambda t}\\ &=\frac{\lambda^{n}t^{n-1}}{(n-1)!}e^{-\lambda t} \end{aligned}

这正是伽马分布.