一些概率分布
LWLAymh
·
2025-10-15 14:26:41
·
学习·文化课
本文大概讲一下几种分布在现实意义上的联系.注意下述讲的都不是严格定义,而只是一种理解.
感谢cqgg为我讲了一晚上各种分布(不过也许我还是没get到精髓,因此下面写错了的话与他无关QAQ).
提纲(?)
为此,我们必将从伯努利分布入手.现在假设事件A 在每一次独立实验中,有p 的概率发生,有1-p 的概率不发生.则:
二项分布\mathrm{B}(n,p) :重复独立n 次实验,A 发生k 次的概率.P(X=k)=\binom{n}{k}p^k(1-p)^{n-k},E(X)=pn,\sigma^2(X)=np(1-p) .
几何分布\mathrm{G}(p) :不断重复实验,A 第一次发生的时刻.P(X=k)=p(1-p)^{k-1},E(X)=\frac{1}{p},\sigma^2(X)=\frac{1-p}{p^2} .
负二项分布\mathrm{NB}(r,p) :不断重复实验,A 第r 次发生的时刻.P(X=k)=\binom{k-1}{r-1}(1-p)^{k-r}p^r,E(X)=\frac{r}{p},\sigma^2(X)=\frac{r(1-p)}{p^2} .
泊松分布\pi(\lambda) :二项分布的极限.重复独立n 次实验,每次成功的概率是\frac{\lambda}{n} .考虑取n\to \infty 的时候,P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},E(X)=\lambda,\sigma^2(X)=\lambda .
指数分布\mathrm{EXP}(\lambda) :几何分布的极限.f(x)=\begin{cases}\lambda e^{-\lambda x}&x\geq 0\\0&x<0\end{cases},F(X)=\begin{cases}1-e^{-\lambda x}&x\geq 0\\0&x<0\end{cases},E(X)=\frac{1}{\lambda},\sigma^2(X)=\frac{1}{\lambda^2} .
伽马分布\Gamma(\alpha,\lambda) :负二项分布的极限.f(x)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},E(X)=\frac{\alpha}{\lambda},\sigma^2(X)=\frac{\alpha}{\lambda^2} .
ps:特别地,对于伽马分布,我们下面一般只讨论\alpha\in \mathbb{N_+} ,也即\Gamma(k)=(k-1)! 的情形.
离散分布之间的关系
如上所说,负二项式分布和二项式分布之间是某种"交换变量"(这个词是我瞎编的)的关系.换句话说,二项式分布是给定试验次数,随机变量是发生次数;而负二项式分布则是给定发生次数,随机变量是试验次数.
下面我们将会看到,这也是为什么泊松分布是离散分布而伽马分布是连续分布.它们其实都是在把"试验次数"极限化变成时间这种连续量.然而,泊松分布的随机变量还是发生次数,这总是离散的;而伽马分布的随机变量却因此变成了发生时间,这自然变成连续的了.
此外,负二项式分布应当是几何分布的某种推广.当Y\sim \mathrm{NB}(r,p),X\sim \mathrm{G}(p) ,比较显然的是由期望的线性性,E(Y)=rE(X) ;此外,方差是独立可加的.而几何分布正满足某种"无记忆性"或者"无后效性":由于P(X> n)=(1-p)^n ,所以有P(X>n+m|X>n)=P(X>m) .因此,也应该能看出\sigma^2(Y)=r\sigma^2(X) .
泊松分布
先来说动机:我们上面刻画的都是"若干次实验"的分布.但在现实生活中,"实验次数"并不总是离散的.例如:有个东西有一定的概率密度坏掉,那我想问它在某个时间段坏了几次,或者还可以问第一次坏掉在某事件的概率.
现在我们来看泊松分布.如果仅仅把泊松分布理解为二项分布的极限,那可能会完全看不懂这个东西是在干什么的(也可能只有我看不懂).一个更好的做法显然是给出若干该分布应当满足的很好的性质,再去反推泊松分布的公式.
一开始我想到的定义是: 对于任意时间区间[a,b] ,在这段时间上发生事件的期望数量总是\lambda(b-a) ,其中\lambda 是一个固定的常数.
但这个定义并不好,首要的就是它忽略了独立性.cqgg给出了如下反例:在[0,\frac{1}{\lambda}) 中随机一个偏移量\delta ,然后在每个\delta+\frac{1}{\lambda} 的时候使事件发生.
正确的定义泊松分布的做法,是从如下三个性质入手(参考[李贤平 概率论基础]):
平稳性 : 在[t_0,t_0+t) 时间段中,来到的呼叫数只与t 有关,而与t_0 无关.若设P_k(t) 为t 时间长度内发生k 次事件的概率,则\forall t,\sum_k P_k(t)=1 .
无后效性(独立增量性) : 在[t_0,t_0+t) 内发生任何事件,都与t_0 之前的事情无关.
普通性 : 在充分小的时间内,只应该发生一次事件.或者说,记\psi(t)=\sum_{k\geq 2}P_k(t) ,则\lim_{t\to 0}\frac{\psi(t)}{t}=0 .或者说,1-P_0(t)-P_1(t)=o(t) .
现在我们已经有了上述三条性质,来看我们是否可以唯一确定泊松分布的表达式(当然,由于这是一个分布,它也应该满足分布的一些性质).为了展示它们分别的作用,下述将以(1)(2)(3)代指它们.于此之前我们还需要一条引理:
若f(t) 是连续函数,且\forall x,y, f(x)f(y)=f(x+y) ,则\exists a>0,f(t)=a^t .
证明无非是先确定f(x)=\left(f(\frac{x}{2})\right)^2\geq 0 ,再设f(1)=a 后确定f(\frac{1}{n})=a^{\frac{1}{n}} ,最后就可以确定f(\frac{n}{m})=a^{\frac{n}{m}} ,再用连续性逼近一下,不再赘述.
现在来看P_k(t+\Delta t) ,也就是在[0,t+\Delta t) 中的结果.(1)(2)共同给出:
P_n(t+\Delta t)=\sum_{k=0}^n P_k(\Delta t)P_{n-k}(t)
特别地,考虑P_0(t_1+t_2)=P_0(t_1)P_0(t_2) ,根据引理这给出P_0(t)=a^t,a\geq 0 .由于这是概率,所以0\leq a\leq 1 ,其中a=0 表示不管多么小的间隔总要来呼叫,与(3)矛盾.a=1 则意味着永不来呼叫,太过平凡(也就对应\lambda=0 ),我们下面不着重讨论.因此我们下面考虑0<a<1 的情况.此时就总能找到一个\lambda >0 ,使得a=e^{-\lambda} ,即P_0(\Delta t)=e^{-\lambda \Delta t}=1-\lambda \Delta t+o(\Delta t) .由(3),导出P_1(\Delta t)=\lambda \Delta t+o(\Delta t) .从而:
\begin{aligned}
P_n(t+\Delta t)&=P_0(\Delta t)P_n(t)+P_1(\Delta t)P_{n-1}(t)+o(\Delta t)\\
&=(1-\lambda \Delta t)P_n(t)+\lambda \Delta tP_{n-1}(t)+o(\Delta t)\\
\frac{P_n(t+\Delta t)-P_n(t)}{\Delta t}&=\lambda(P_{n-1}(t)-P_n(t))+o(1)\\
P_n'(t)&=\lambda (P_{n-1}(t)-P_n(t))
\end{aligned}
由于已知P_0(t)=e^{-\lambda t} ,从而可以由上数学归纳推导出P_n(t)=\frac{(\lambda t)^n}{n!}e^{-\lambda t} .
为何上述条件的确能导出长度为t 的时间中,事件发生的期望一定为\lambda t 呢?这一点应当是由平稳性决定的.不妨设E(t) 是长度为t 的时间区间上的期望.此时,应当(不管是否独立)有E(x+y)=E(x)+E(y) .这就已经足够了.不妨设单位长度时间区间的期望是\lambda ,则显然E(1)=nE(\frac{1}{n}) ,可以推导出E(\frac{n}{m})=\frac{n}{m}\lambda ,连续性就可以导出E(t)=\lambda t .
此外,请看\lim_{\Delta t\to 0}\frac{P_1(\Delta t)}{\Delta t}\to \lambda ,这看上去就像是"某个时刻"发生该事件的概率密度是\lambda ,虽然这其实是一个并不严谨的描述.
一些其它的泊松分布
如上所说,X\sim \pi(\lambda) 表示一段时间内发生某个事件的次数.如果我在此基础上,要求每个事件有p 的概率发展成A 面,1-p 的概率发展成B 面.那此时,讲道理,一个自然的想法是A\sim \pi(p\lambda ) .策略是硬算,不再赘述了.
连续分布之间的关系
先来看从泊松分布中推出指数分布.显然,如果X\sim \mathrm{EXP}(\lambda) ,则P(X\leq t) 也就等价于 "在[0,t) 这段时间内,发生过至少一次事件" ,如果Y\sim \pi(\lambda t) ,这也就等价于P(Y\geq 1) ,从而P(X\leq t)=1-P(Y=0)=1-e^{-\lambda t} .
泊松分布还可以推出伽马分布.与上面类似,若X\sim \Gamma(n,\lambda) ,则当然:
\begin{aligned}
F(t)&=P(X\leq t)\\
&=1-\sum_{k=0}^{n-1}P(Y=k)\\
&=1-\sum_{k=0}^{n-1}\frac{(\lambda t)^k}{k!}e^{-\lambda t}\\
&=1-e^{-\lambda t}-\sum_{k=1}^{n-1}\frac{(\lambda t)^k}{k!}e^{-\lambda t}\\
f(t)&=\lambda e^{-\lambda t}+\lambda \sum_{k=1}^{n-1}\frac{(\lambda t)^k}{k!}e^{-\lambda t}-\lambda \sum_{k=0}^{n-2}\frac{(\lambda t)^k}{k!}e^{-\lambda t}\\
&=\frac{\lambda^{n}t^{n-1}}{(n-1)!}e^{-\lambda t}
\end{aligned}
这正是伽马分布.