高中数学笔记 - 统计 & 概率 & 组合

· · 学习·文化课

数学笔记全文

修订

统计

简单随机抽样:1. 个体数有限 2. 逐个抽取 3. 被抽到的概率相等。

例:10 个个体里抽一个容量为 n 的样本, 某个个体 A 第一次被抽到的可能性为 ?第二次被抽到的可能性为 ?

第一次:\frac{1}{10} 第二次:\frac{9}{10}\times\frac{1}{9}=\frac{1}{10}

随机数表题:范围 [0,39],有以下随机数表,从第 1 行第 3 列开始,选出的数依次为 36,33,26,16,11,14,10

0347 4373 8636 9647 3661 4698
6371 6233 2616 8045 6011 1410

总体平均数:\bar{x}=\frac{1}{n}\displaystyle\sum_{i=1}^{n}x_i\ \ \text{} 中位数:\begin{cases}x_{\lceil\frac{n}{2}\rceil} & x\ \mathrm{mod}\ 2\equiv 1 \\ \frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2} & x\ \mathrm{mod}\ 2\equiv 0\end{cases}\ \ \text{}

众数:出现次数最多的数据,不一定唯一,也不一定有众数。

极差:\max{\set{x_i}}-\min{\set{x_i}}\ \ \ \ \text{} 标准差:s=\sqrt{\frac{1}{n}\displaystyle\sum_{i=1}^{n}(x_i-\bar{x})^2}

\begin{aligned}方差:s^2&=\frac{1}{n}\displaystyle\sum_{i=1}^{n}(x_i-\bar{x})^2=\frac{1}{n}\displaystyle\sum_{i=1}^{n}(x_i^2-2x_i\bar{x}+\bar{x}^2)=\frac{1}{n}\displaystyle\sum_{i=1}^{n}x_i^2-\frac{1}{n}\displaystyle\sum_{i=1}^{n}2x_i\bar{x}+\frac{1}{n}\displaystyle\sum_{i=1}^{n}\bar{x}^2\\&=\frac{1}{n}\displaystyle\sum_{i=1}^{n}x_i^2-2\bar{x}^2+\bar{x}^2=\frac{1}{n}\displaystyle\sum_{i=1}^{n}x_i^2-\bar{x}^2\end{aligned}

若采用分层随机抽样,分 n 层,样本数 m_1,m_2,\dots,m_n,平均值 x_1,x_2,\dots,x_n\\ 则样本平均数 \bar{x}=\displaystyle\sum_{i=1}^{n}\frac{m_i\cdot x_i}{\displaystyle\sum_{j=1}^{n}m_j},注意样本平均数 \neq 总体平均数。

分层随机抽样需按比例分配:\frac{总体中第\ m\ 层个体数}{总体中第\ n\ 层个体数}=\frac{样本中第\ m\ 层个体数}{样本中第\ n\ 层个体数}\frac{样本中第\ m\ 层个体数}{总体中第\ m\ 层个体数}=\frac{样本容量}{总体容量}

p 百分位数:数据中至少有 p\% 的数据 \leq 这个值,至少有 (100-p)\% 的数 \geq 这个值。

25 百分位数:第一四分位数 / 下四分位数;第 75 百分位数:第三四分位数 / 上四分位数;第 50 百分位数:中位数。

已知数据求第 p 百分位数:1. 从小到大排序,令 i=n\times p\% 2. \begin{cases}\text{ans}=\frac{a_i+a_{i+1}}{2} & \lfloor i \rfloor = i \\ \text{ans}=a_{\lceil i \rceil} & \lfloor i \rfloor \neq i \end{cases}

格式要求:\begin{cases}[a,b) 的频率 <x\% \\ [a,c)的频率>x\%\end{cases}\impliesx 百分位数在 [b,c) 内。

特别地,只有 $2$ 层时,若: | 第 $1$ 层 | $m$ 个数 | $\bar x$ | $s^2$ | |:-:|:-:|:-:|:-:| | 第 $2$ 层 | $n$ 个数 | $\bar y$ | $t^2$ | 则总平均数 $\displaystyle\bar a=\frac{m\bar x+n\bar y}{m+n}$,总方差 $\displaystyle b^2=\frac{ms^2+nt^2+m(\bar x-\bar a)^2+n(\bar y-\bar a)^2}{m+n}

若数据 x_1,x_2,\dots,x_n 的平均数 \bar x,方差 s^2,标准差 s,则数据 mx_1+a,mx_2+a,\dots,mx_n+a 的平均数 m\bar{x}+a,方差 s^2m^2,标准差 sm

线性回归问题的一般步骤:

  1. 列表 + 画散点图

    x x_1 x_2 \dots x_n
    y y_1 y_2 \dots y_n
  2. 通过公式求 \hat b,\hat a

\hat b=\frac{\displaystyle\sum_{i=1}^{n}(x_i-\bar x)(y_i-\bar y)}{\displaystyle\sum_{i=1}^{n}(x_i-\bar x)^2}=\frac{\displaystyle\sum_{i=1}^{n} x_iy_i-n\bar x\bar y}{\displaystyle\sum_{i=1}^{n}x_i^2-n\bar x^2}\ \ \ \ \ \ \ \ \ \ \ \ \ \hat a=\bar y-\hat b\bar x
  1. 根据直线方程一定过 \bar x,\bar y 得出 \hat y=\hat bx+\hat a

如果散点均匀分布在回归直线的两侧,那么回归效果就好

如果 \hat b > 0 则两变量正相关,反之则负相关,也可利用样本相关系数 r 来判断。

$$r=\frac{\displaystyle\sum_{i=1}^{n}(x_i-\bar x)(y_i-\bar y)}{\sqrt{\displaystyle\sum_{i=1}^{n}(x_i-\bar x)^2\sum_{i=1}^{n}(y_i-\bar y)^2}}=\frac{\displaystyle\sum_{i=1}^{n} x_iy_i-n\bar x\bar y}{\sqrt{\displaystyle\sum_{i=1}^{n}x_i^2-n\bar x^2}\sqrt{\displaystyle\sum_{i=1}^{n}y_i^2-n\bar y^2}}$$ 非线性回归方程:转化为线性回归方程。 1. 幂函数型:$y=c_1x^{n}+c_2\ (n$ 一般为 $\frac{1}{2}$ 或 $2)$。 变换:令 $t=x^n,b=c_1,a=c_2$,则 $y=bt+a$。 2. 指数型:$y=c_1e^{c_2x}$。 变换:两边取对数并令 $z=\ln y,a=\ln c_1,b=c_2$,则 $z=bx+a$。 变换后,需转化原函数关系,一般用相关指数来看拟合效果的强弱。( 注:非线性的不能用相关系数 $r$ ) # 概率 ### 基本概念 - 随机试验:对随机现象的实现和观察,用 $E$ 表示。 - 样本点:$E$ 的每个可能的基本结果,用 $\omega$ 表示。 - 样本空间:全体 $\omega$ 的集合,用 $\Omega$ 表示。 - 有限样本空间:若一个随机试验有 $n$ 个可能结果 $\omega_1,\omega_2,\dots,\omega_n$,则称样本空间 $\Omega=\set{\omega_1,\omega_2,\dots,\omega_n}$ 为有限样本空间 $\\$( 即 $\Omega$ 为有限集 )。 - 随机事件:$\Omega$ 的子集,简称事件,用大写字母 $A,B,C,\dots$ 表示,当且仅当 $A$ 中的某个样本点出现时,称事件 $A$ 发生。 - 基本事件:只包含一个样本点的事件。 - 必然事件:$\Omega$ 作为自身的子集,包含了所有样本点,在每次试验中总有一个样本点发生,即 $\Omega$ 总会发生。 - 不可能事件:$\varnothing$ 不含任何样本点,在每次试验中都不会发生,必然事件与不可能事件不具有随机性。 ### 事件的关系和运算 | 事件的关系 | 含义 | 符号表示 | | :-------------: | :-------------------------: | :---------------------------------------------: | | 包含 | $A$ 发生 $\implies B$ 发生 | $A\subseteq B$ | | 并事件 / 和事件 | $A$ 和 $B$ 至少一个发生 | $A\bigcup B$ 或 $A+B$ | | 交事件 / 积事件 | $A$ 和 $B$ 同时发生 | $A\bigcap B$ 或 $AB$ | | 互斥 / 互不相容 | $A$ 和 $B$ 不能同时发生 | $A\bigcap B=\varnothing$ | | 互为独立 | $A$ 和 $B$ 有且仅有一个发生 | $A\bigcap B=\varnothing$ 且 $A\bigcup B=\Omega$ | 如果 $A,B$ 互斥,记 $\bar{A},\bar{B}$ 分别为 $A,B$ 的对立事件。 若 $A\subseteq B$ 且 $B\subseteq A$,则事件 $A$ 和事件 $B$ 相等,$A=B$。 对于三个事件 $A,B,C$,$A\bigcup B\bigcup C$ 或 $A+B+C$ 表示 $A,B,C$ 至少一个发生,其余同理。 ### 古典概型 - 满足有限性( 有限样本空间 )、等可能性。 - 设 $E$ 为古典概型,样本空间 $\Omega$ 包含 $n$ 个样本点,事件 $A$ 包含其中的 $k$ 个样本点,则事件 $A$ 的概率为 $P(A)=\frac{k}{n}=\frac{n(A)}{n(\Omega)} \\ n(A),n(\Omega)$ 表示事件 $A$ 和样本空间 $\Omega$ 包含的样本点个数。 ### 概率的基本性质 1. $\forall A,0\leq P(A)\leq 1
  1. 必然事件 \Omega 概率为 P(\Omega)=1,不可能事件 \varnothing 概率为 P(\varnothing)=0
  2. A,B 互斥,则 P(A\bigcup B)=P(A)+P(B)\\ 推广:若 A_1,A_2,\dots,A_m 两两互斥,则 P(A_1\bigcup A_2\bigcup\dots\bigcup A_m)=\displaystyle\sum_{i=1}^{m}P(A_i)
  3. A,B 对立,则 P(B)=1-P(A),P(A)=1-P(B);若 P(A)+P(B)=1,则 A,B 不一定对立。
  4. A\subseteq B,则 P(A)\leq P(B)( 概率的单调性 )。
  5. A,B 为随机试验中的两个事件,则 P(A\bigcup B)=P(A)+P(B)-P(A\bigcap B) ( 容斥原理 )。
  6. 对任意 2 个事件 A,B,若 P(AB)=P(A)P(B),则 AB 相互独立,记 A,B 的对立事件分别为 \bar{A},\bar{B} \\ 因事件 A,B 的发生互不影响,则 A\bar{B}\bar{A}B\bar{A}\bar{B} 也相互独立。
  7. A,B,C 两两独立,则 P(ABC)\neq P(A)P(B)P(C)
  8. \bar{A}\cap\bar{B}=\overline{A\cup B},\bar{A}\cup\bar{B}=\overline{A\cap B}
事件含义 事件表示 概率 A,B 互斥 A,B 相互独立
AB 至少一个发生 A\bigcup B P(A\bigcup B) P(A)+P(B) 1-P(\bar{A})P(\bar{B})
AB 同时发生 AB P(AB) 0 P(A)P(B)
AB 都不发生 \bar{A}\bar{B} P(\bar{A}\bar{B}) 1-[P(A)+P(B)] P(\bar{A})P(\bar{B})
AB 只有一个发生 A\bar{B}+\bar{A}B P(A\bar{B}\bigcup\bar{A}B) P(A)+P(B) P(A)P(\bar{B})+P(\bar{A})P(B)

组合计数

  1. n完全相同的元素,要求将其分为 k 组,保证每组至少有一个元素,一共有多少种分法?\\ 考虑拿 k-1 块板子插入到 n 个元素两两形成的 n-1 个空里面。\\ 答案为 \begin{pmatrix}n-1 \\ k-1\end{pmatrix} \\ 本质是求 x_1+x_2+\dots+x_k=n 的正整数解的组数。\\

  2. 若问题变换一下,每组允许为空?\\ 考虑创造条件转化成有限制的问题一,先借 k 个元素过来,在这 n+k 个元素形成的 n+k-1 个空里面插板。\\ 答案为 \begin{pmatrix}n+k-1 \\ k-1\end{pmatrix}=\begin{pmatrix}n+k-1 \\ n\end{pmatrix} \\ 本质是求 x_1+x_2+\dots+x_k=n 的非负整数解的组数。

  3. 再扩展一步,要求对于第 i 组,至少要分到 a_i 个元素呢?( \sum a_i\leq n\\ 本质是求 x_1+x_2+\dots+x_k=n 的解的数目。\\ 类比无限制的情况,我们借 \sum a_i 个元素过来,保证第 i 组能至少分到 a_i 个,也就是令 x_i'=x_i-a_ix_i'\geq 0 \\ 得到新方程

    (x_1'+a_1)+(x_2'+a_2)+\dots+(x_k'+a_k)=n

    转化为

    \displaystyle\sum_{i=1}^{k}x_i'=n-\sum a_i

    答案为

    \begin{pmatrix}n-\sum a_i+k-1\\k-1 \end{pmatrix}=\begin{pmatrix}n-\sum a_i+k-1 \\ n-\sum a_i\end{pmatrix}
(a+b)^n=\displaystyle\sum_{k=0}^{n}C_n^ka^kb^{n-k}\ \ \ \ \ \ \ (ax+by)^n=\displaystyle\sum_{k=0}^{n}C_n^ka^kb^{n-k}x^ky^{n-k}

证明可利用数学归纳法,利用 \begin{pmatrix}n \\ k\end{pmatrix}+\begin{pmatrix}n \\ k-1\end{pmatrix}=\begin{pmatrix}n+1 \\ k\end{pmatrix}

若将二项式定理扩展成多项式的形式,有:

(x_1+x_2+\dots+x_t)^n=\displaystyle\sum_{满足\ n_1+n_2+\dots+n_t=n\ 的非负整数解}\begin{pmatrix}n \\ n_1,n_2,\dots,n_t\end{pmatrix}x_1^{n_1}x_2^{n_2}\dots x_t^{n_t}

其中 \begin{pmatrix}n \\ n_1,n_2,\dots,n_t\end{pmatrix} 是多项式系数,满足 \displaystyle\sum \begin{pmatrix}n \\ n_1,n_2,\dots,n_t\end{pmatrix}=t^n

\displaystyle\sum_{i=0}^{k}\begin{pmatrix}n \\ i\end{pmatrix}\begin{pmatrix}m \\ k-i\end{pmatrix}=\begin{pmatrix}n+m \\ k\end{pmatrix} C_n^m\equiv C_{n\ \text{mod}\ p}^{m\ \text{mod}\ p}\times C_{n/p}^{m/p}\ (\text{mod}\ p) Cat_n=\frac{C_{2n}^n}{n+1}
n 1 2 3 4 5 6 7 8 9 10
Cat_n 1 2 5 14 42 132 429 1430 4862 16796

以下问题都与 \text{Catalan} 数有关:

  1. n$ 个左括号和 $n$ 个右括号组成的合法括号序列的数量为 $Cat_n
  2. 1,2,\dots,n$ 经过一个栈,形成的合法出栈序列的数量为 $Cat_n
  3. n$ 个节点构成的不同二叉树的数量为 $Cat_n$,$n$ 个节点的 $m$ 叉树有 $\frac{\begin{pmatrix}nm \\ n-1\end{pmatrix}}{n}
  4. 在平面直角坐标系上,每一步只能向上或向右走,从 (0,0) 走到 (n,n) 并且两个端点外不接触直线 y=x 的路线数量为 2Cat_{n-1}
  5. 对于一个凸多边形的顶点数为 nCat_{n-2} 代表所有可能的三角剖分的数量。
|\displaystyle\bigcup_{i=1}^{n}S_i|=\displaystyle\sum_{i=1}^{n}|S_i|-\displaystyle\sum_{1\leq i<j\leq n}|S_i\bigcap S_j|+\displaystyle\sum_{1\leq i<j<k\leq n}|S_i\bigcap S_j\bigcap S_k|+\dots+(-1)^{n+1}|S_1\bigcap\dots\bigcap S_n| S_1(n,m)=S_1(n-1,m-1)+S_1(n-1,m)\times(n-1) S_2(n,m)=S_2(n-1,m-1)+S_2(n-1,m)\times m D(n)=(n-1)(D(n-1)+D(n-2))=n\times D(n-1)+(-1)^n