高中数学笔记 - 统计 & 概率 & 组合
liuhaopeng
·
2024-12-23 20:45:37
·
学习·文化课
数学笔记全文
修订
统计
简单随机抽样:1. 个体数有限 2. 逐个抽取 3. 被抽到的概率相等。
例:10 个个体里抽一个容量为 n 的样本, 某个个体 A 第一次被抽到的可能性为 ?第二次被抽到的可能性为 ?
第一次:\frac{1}{10} 第二次:\frac{9}{10}\times\frac{1}{9}=\frac{1}{10}
随机数表题:范围 [0,39] ,有以下随机数表,从第 1 行第 3 列开始,选出的数依次为 36,33,26,16,11,14,10 。
0347
4373
8636
9647
3661
4698
6371
6233
2616
8045
6011
1410
总体平均数:\bar{x}=\frac{1}{n}\displaystyle\sum_{i=1}^{n}x_i\ \ \text{} 中位数:\begin{cases}x_{\lceil\frac{n}{2}\rceil} & x\ \mathrm{mod}\ 2\equiv 1 \\ \frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2} & x\ \mathrm{mod}\ 2\equiv 0\end{cases}\ \ \text{}
众数:出现次数最多的数据,不一定唯一,也不一定有众数。
极差:\max{\set{x_i}}-\min{\set{x_i}}\ \ \ \ \text{} 标准差:s=\sqrt{\frac{1}{n}\displaystyle\sum_{i=1}^{n}(x_i-\bar{x})^2}
\begin{aligned}方差:s^2&=\frac{1}{n}\displaystyle\sum_{i=1}^{n}(x_i-\bar{x})^2=\frac{1}{n}\displaystyle\sum_{i=1}^{n}(x_i^2-2x_i\bar{x}+\bar{x}^2)=\frac{1}{n}\displaystyle\sum_{i=1}^{n}x_i^2-\frac{1}{n}\displaystyle\sum_{i=1}^{n}2x_i\bar{x}+\frac{1}{n}\displaystyle\sum_{i=1}^{n}\bar{x}^2\\&=\frac{1}{n}\displaystyle\sum_{i=1}^{n}x_i^2-2\bar{x}^2+\bar{x}^2=\frac{1}{n}\displaystyle\sum_{i=1}^{n}x_i^2-\bar{x}^2\end{aligned}
若采用分层随机抽样,分 n 层,样本数 m_1,m_2,\dots,m_n ,平均值 x_1,x_2,\dots,x_n ,\\ 则样本平均数 \bar{x}=\displaystyle\sum_{i=1}^{n}\frac{m_i\cdot x_i}{\displaystyle\sum_{j=1}^{n}m_j} ,注意样本平均数 \neq 总体平均数。
分层随机抽样需按比例分配:\frac{总体中第\ m\ 层个体数}{总体中第\ n\ 层个体数}=\frac{样本中第\ m\ 层个体数}{样本中第\ n\ 层个体数} 且 \frac{样本中第\ m\ 层个体数}{总体中第\ m\ 层个体数}=\frac{样本容量}{总体容量}
第 p 百分位数:数据中至少有 p\% 的数据 \leq 这个值,至少有 (100-p)\% 的数 \geq 这个值。
第 25 百分位数:第一四分位数 / 下四分位数;第 75 百分位数:第三四分位数 / 上四分位数;第 50 百分位数:中位数。
已知数据求第 p 百分位数:1. 从小到大排序,令 i=n\times p\% 2. \begin{cases}\text{ans}=\frac{a_i+a_{i+1}}{2} & \lfloor i \rfloor = i \\ \text{ans}=a_{\lceil i \rceil} & \lfloor i \rfloor \neq i \end{cases}
格式要求:\begin{cases}[a,b) 的频率 <x\% \\ [a,c)的频率>x\%\end{cases}\implies 第 x 百分位数在 [b,c) 内。
特别地,只有 $2$ 层时,若:
| 第 $1$ 层 | $m$ 个数 | $\bar x$ | $s^2$ |
|:-:|:-:|:-:|:-:|
| 第 $2$ 层 | $n$ 个数 | $\bar y$ | $t^2$ |
则总平均数 $\displaystyle\bar a=\frac{m\bar x+n\bar y}{m+n}$,总方差 $\displaystyle b^2=\frac{ms^2+nt^2+m(\bar x-\bar a)^2+n(\bar y-\bar a)^2}{m+n}
若数据 x_1,x_2,\dots,x_n 的平均数 \bar x ,方差 s^2 ,标准差 s ,则数据 mx_1+a,mx_2+a,\dots,mx_n+a 的平均数 m\bar{x}+a ,方差 s^2m^2 ,标准差 sm 。
线性回归问题的一般步骤:
列表 + 画散点图
x
x_1
x_2
\dots
x_n
y
y_1
y_2
\dots
y_n
通过公式求 \hat b,\hat a 。
\hat b=\frac{\displaystyle\sum_{i=1}^{n}(x_i-\bar x)(y_i-\bar y)}{\displaystyle\sum_{i=1}^{n}(x_i-\bar x)^2}=\frac{\displaystyle\sum_{i=1}^{n} x_iy_i-n\bar x\bar y}{\displaystyle\sum_{i=1}^{n}x_i^2-n\bar x^2}\ \ \ \ \ \ \ \ \ \ \ \ \ \hat a=\bar y-\hat b\bar x
根据直线方程一定过 \bar x,\bar y 得出 \hat y=\hat bx+\hat a 。
如果散点均匀分布在回归直线的两侧,那么回归效果就好
如果 \hat b > 0 则两变量正相关,反之则负相关,也可利用样本相关系数 r 来判断。
$$r=\frac{\displaystyle\sum_{i=1}^{n}(x_i-\bar x)(y_i-\bar y)}{\sqrt{\displaystyle\sum_{i=1}^{n}(x_i-\bar x)^2\sum_{i=1}^{n}(y_i-\bar y)^2}}=\frac{\displaystyle\sum_{i=1}^{n} x_iy_i-n\bar x\bar y}{\sqrt{\displaystyle\sum_{i=1}^{n}x_i^2-n\bar x^2}\sqrt{\displaystyle\sum_{i=1}^{n}y_i^2-n\bar y^2}}$$
非线性回归方程:转化为线性回归方程。
1. 幂函数型:$y=c_1x^{n}+c_2\ (n$ 一般为 $\frac{1}{2}$ 或 $2)$。
变换:令 $t=x^n,b=c_1,a=c_2$,则 $y=bt+a$。
2. 指数型:$y=c_1e^{c_2x}$。
变换:两边取对数并令 $z=\ln y,a=\ln c_1,b=c_2$,则 $z=bx+a$。
变换后,需转化原函数关系,一般用相关指数来看拟合效果的强弱。( 注:非线性的不能用相关系数 $r$ )
# 概率
### 基本概念
- 随机试验:对随机现象的实现和观察,用 $E$ 表示。
- 样本点:$E$ 的每个可能的基本结果,用 $\omega$ 表示。
- 样本空间:全体 $\omega$ 的集合,用 $\Omega$ 表示。
- 有限样本空间:若一个随机试验有 $n$ 个可能结果 $\omega_1,\omega_2,\dots,\omega_n$,则称样本空间 $\Omega=\set{\omega_1,\omega_2,\dots,\omega_n}$ 为有限样本空间 $\\$( 即 $\Omega$ 为有限集 )。
- 随机事件:$\Omega$ 的子集,简称事件,用大写字母 $A,B,C,\dots$ 表示,当且仅当 $A$ 中的某个样本点出现时,称事件 $A$ 发生。
- 基本事件:只包含一个样本点的事件。
- 必然事件:$\Omega$ 作为自身的子集,包含了所有样本点,在每次试验中总有一个样本点发生,即 $\Omega$ 总会发生。
- 不可能事件:$\varnothing$ 不含任何样本点,在每次试验中都不会发生,必然事件与不可能事件不具有随机性。
### 事件的关系和运算
| 事件的关系 | 含义 | 符号表示 |
| :-------------: | :-------------------------: | :---------------------------------------------: |
| 包含 | $A$ 发生 $\implies B$ 发生 | $A\subseteq B$ |
| 并事件 / 和事件 | $A$ 和 $B$ 至少一个发生 | $A\bigcup B$ 或 $A+B$ |
| 交事件 / 积事件 | $A$ 和 $B$ 同时发生 | $A\bigcap B$ 或 $AB$ |
| 互斥 / 互不相容 | $A$ 和 $B$ 不能同时发生 | $A\bigcap B=\varnothing$ |
| 互为独立 | $A$ 和 $B$ 有且仅有一个发生 | $A\bigcap B=\varnothing$ 且 $A\bigcup B=\Omega$ |
如果 $A,B$ 互斥,记 $\bar{A},\bar{B}$ 分别为 $A,B$ 的对立事件。
若 $A\subseteq B$ 且 $B\subseteq A$,则事件 $A$ 和事件 $B$ 相等,$A=B$。
对于三个事件 $A,B,C$,$A\bigcup B\bigcup C$ 或 $A+B+C$ 表示 $A,B,C$ 至少一个发生,其余同理。
### 古典概型
- 满足有限性( 有限样本空间 )、等可能性。
- 设 $E$ 为古典概型,样本空间 $\Omega$ 包含 $n$ 个样本点,事件 $A$ 包含其中的 $k$ 个样本点,则事件 $A$ 的概率为 $P(A)=\frac{k}{n}=\frac{n(A)}{n(\Omega)} \\ n(A),n(\Omega)$ 表示事件 $A$ 和样本空间 $\Omega$ 包含的样本点个数。
### 概率的基本性质
1. $\forall A,0\leq P(A)\leq 1
必然事件 \Omega 概率为 P(\Omega)=1 ,不可能事件 \varnothing 概率为 P(\varnothing)=0 。
若 A,B 互斥,则 P(A\bigcup B)=P(A)+P(B) ; \\ 推广:若 A_1,A_2,\dots,A_m 两两互斥,则 P(A_1\bigcup A_2\bigcup\dots\bigcup A_m)=\displaystyle\sum_{i=1}^{m}P(A_i)
若 A,B 对立,则 P(B)=1-P(A),P(A)=1-P(B) ;若 P(A)+P(B)=1 ,则 A,B 不一定对立。
若 A\subseteq B ,则 P(A)\leq P(B) ( 概率的单调性 )。
设 A,B 为随机试验中的两个事件,则 P(A\bigcup B)=P(A)+P(B)-P(A\bigcap B) ( 容斥原理 )。
对任意 2 个事件 A,B ,若 P(AB)=P(A)P(B) ,则 A 与 B 相互独立,记 A,B 的对立事件分别为 \bar{A},\bar{B} \\ 因事件 A,B 的发生互不影响,则 A 与 \bar{B} ,\bar{A} 与 B ,\bar{A} 与 \bar{B} 也相互独立。
若 A,B,C 两两独立,则 P(ABC)\neq P(A)P(B)P(C) 。
\bar{A}\cap\bar{B}=\overline{A\cup B},\bar{A}\cup\bar{B}=\overline{A\cap B}
事件含义
事件表示
概率
A,B 互斥
A,B 相互独立
A 和 B 至少一个发生
A\bigcup B
P(A\bigcup B)
P(A)+P(B)
1-P(\bar{A})P(\bar{B})
A 和 B 同时发生
AB
P(AB)
0
P(A)P(B)
A 和 B 都不发生
\bar{A}\bar{B}
P(\bar{A}\bar{B})
1-[P(A)+P(B)]
P(\bar{A})P(\bar{B})
A 和 B 只有一个发生
A\bar{B}+\bar{A}B
P(A\bar{B}\bigcup\bar{A}B)
P(A)+P(B)
P(A)P(\bar{B})+P(\bar{A})P(B)
组合计数
加法原理( 分类 ),乘法原理( 分步 )。
排列:从 n 个不同元素中取 m 个排成一列,考虑顺序 ,产生不同排列的数量为 \\ A_n^m ( 也可记作 P_n^m ) =\frac{n!}{(n-m)!}=n\times(n-1)\times(n-2)\times\dots\times(n-m+1)
组合:从 n 个不同元素中取 m 个排成一列,不考虑顺序 ,产生不同组合的数量为 \\ \begin{pmatrix}m \\ n\end{pmatrix}=C_n^m=\frac{n!}{m!(n-m)!}=\frac{n\times(n-1)\times\dots\times(n-m+1)}{m\times(m-1)\times\dots\times 2\times 1}
性质:
C_n^m=C_n^{n-m}
C_n^m=C_{n-1}^m+C_{n-1}^{m-1}
\displaystyle\sum_{i=0}^{n}C_n^i=C_n^0+C_n^1+C_n^2+\dots+C_n^n=2^n
组合数的应用
有 n 个完全相同 的元素,要求将其分为 k 组,保证每组至少有一个元素,一共有多少种分法?\\
考虑拿 k-1 块板子插入到 n 个元素两两形成的 n-1 个空里面。\\
答案为 \begin{pmatrix}n-1 \\ k-1\end{pmatrix} \\
本质是求 x_1+x_2+\dots+x_k=n 的正整数解的组数。\\
若问题变换一下,每组允许为空?\\
考虑创造条件转化成有限制的问题一,先借 k 个元素过来,在这 n+k 个元素形成的 n+k-1 个空里面插板。\\
答案为 \begin{pmatrix}n+k-1 \\ k-1\end{pmatrix}=\begin{pmatrix}n+k-1 \\ n\end{pmatrix} \\
本质是求 x_1+x_2+\dots+x_k=n 的非负整数解的组数。
再扩展一步,要求对于第 i 组,至少要分到 a_i 个元素呢?( \sum a_i\leq n )\\
本质是求 x_1+x_2+\dots+x_k=n 的解的数目。\\
类比无限制的情况,我们借 \sum a_i 个元素过来,保证第 i 组能至少分到 a_i 个,也就是令 x_i'=x_i-a_i 且 x_i'\geq 0 \\
得到新方程
(x_1'+a_1)+(x_2'+a_2)+\dots+(x_k'+a_k)=n
转化为
\displaystyle\sum_{i=1}^{k}x_i'=n-\sum a_i
答案为
\begin{pmatrix}n-\sum a_i+k-1\\k-1 \end{pmatrix}=\begin{pmatrix}n-\sum a_i+k-1 \\ n-\sum a_i\end{pmatrix}
(a+b)^n=\displaystyle\sum_{k=0}^{n}C_n^ka^kb^{n-k}\ \ \ \ \ \ \ (ax+by)^n=\displaystyle\sum_{k=0}^{n}C_n^ka^kb^{n-k}x^ky^{n-k}
证明可利用数学归纳法,利用 \begin{pmatrix}n \\ k\end{pmatrix}+\begin{pmatrix}n \\ k-1\end{pmatrix}=\begin{pmatrix}n+1 \\ k\end{pmatrix}
若将二项式定理扩展成多项式的形式,有:
(x_1+x_2+\dots+x_t)^n=\displaystyle\sum_{满足\ n_1+n_2+\dots+n_t=n\ 的非负整数解}\begin{pmatrix}n \\ n_1,n_2,\dots,n_t\end{pmatrix}x_1^{n_1}x_2^{n_2}\dots x_t^{n_t}
其中 \begin{pmatrix}n \\ n_1,n_2,\dots,n_t\end{pmatrix} 是多项式系数,满足 \displaystyle\sum \begin{pmatrix}n \\ n_1,n_2,\dots,n_t\end{pmatrix}=t^n 。
\displaystyle\sum_{i=0}^{k}\begin{pmatrix}n \\ i\end{pmatrix}\begin{pmatrix}m \\ k-i\end{pmatrix}=\begin{pmatrix}n+m \\ k\end{pmatrix}
C_n^m\equiv C_{n\ \text{mod}\ p}^{m\ \text{mod}\ p}\times C_{n/p}^{m/p}\ (\text{mod}\ p)
Cat_n=\frac{C_{2n}^n}{n+1}
n
1
2
3
4
5
6
7
8
9
10
Cat_n
1
2
5
14
42
132
429
1430
4862
16796
以下问题都与 \text{Catalan} 数有关:
n$ 个左括号和 $n$ 个右括号组成的合法括号序列的数量为 $Cat_n
1,2,\dots,n$ 经过一个栈,形成的合法出栈序列的数量为 $Cat_n
n$ 个节点构成的不同二叉树的数量为 $Cat_n$,$n$ 个节点的 $m$ 叉树有 $\frac{\begin{pmatrix}nm \\ n-1\end{pmatrix}}{n}
在平面直角坐标系上,每一步只能向上或向右走,从 (0,0) 走到 (n,n) 并且两个端点外不接触直线 y=x 的路线数量为 2Cat_{n-1}
对于一个凸多边形的顶点数为 n ,Cat_{n-2} 代表所有可能的三角剖分的数量。
容斥原理:设 S_1,S_2,\dots,S_n 为有限集合,|S| 表示集合 S 的大小,则:
|\displaystyle\bigcup_{i=1}^{n}S_i|=\displaystyle\sum_{i=1}^{n}|S_i|-\displaystyle\sum_{1\leq i<j\leq n}|S_i\bigcap S_j|+\displaystyle\sum_{1\leq i<j<k\leq n}|S_i\bigcap S_j\bigcap S_k|+\dots+(-1)^{n+1}|S_1\bigcap\dots\bigcap S_n|
第 1 类 \mathrm{Stirling} 数:1 ~ n 的排列有 m 个环:
S_1(n,m)=S_1(n-1,m-1)+S_1(n-1,m)\times(n-1)
第 2 类 \mathrm{Stirling} 数:n 个不同的球放入 m 个相同盒子且盒子非空:
S_2(n,m)=S_2(n-1,m-1)+S_2(n-1,m)\times m
错排数:1 ~ n 的排列,第 i 个位置上均不为 i :
D(n)=(n-1)(D(n-1)+D(n-2))=n\times D(n-1)+(-1)^n