【整活】你是怎么磕别人的 /kel
glass_goldfish
·
2025-08-11 21:08:18
·
算法·理论
Part 1 前置知识(知道的敬请跳过)
Part I 钟型曲线
首先,我们要了解掷硬币。对于掷硬币,在大多数情况,概率都是一半对一半(50\% 正 50\% 反)。也就是说,当我们掷硬币的次数越多,那么抛到正面和反面的次数就越趋近于一半(大数定律)。抛的次数越多,那么这边抛到某个特定次数的概率就是正态分布曲线 ,即钟型曲线 ,如图。
(图片来源于百度)
以上纵轴是发生的概率,横轴是正面(或反面)出现的次数。这里正中央的灰色细线是代表正好 50\% ,两边是分别递减。可以发现,自中间向两边,概率减小的会越来越缓慢,但是比较旁边的“地带”概率都是趋近于 0 的。这种基本事实叫做中心极限定理 。
Part II p 值的定义(简单死了)
“p 值”这个词看上去老高深了,其实就是一句话:某个事情发生的概率。就这样,完了。
在数学、科学上,我们经常以 p 值取 5\% 为“可置信水平”,即不发生概率在 5\% 以下就是基本上会发生(显然不是一定发生)。
Part 2 开始磕人(?正文在这里
在日常生活中,我们会经常观察到一些现象,比如远方传来某某小 A【数据删除】某某小 B 的言论(不一定是谣言,当然也不一定不是真的)。这样的话语,经常会一传十,十传百,导致可能本来就是谣言(比如开开玩笑),最后不得不被迫变为真实的话语,导致不必要的伤害 (bruh。
《穿井得一人》之中告诉我们,对于一些听起来就不太真,甚至是听起来就是真的事件,我们也要去实践、去调查,搞清楚这件事是否真正发生。更进一步,世界上没有什么绝对的事情,就算你觉得它就是一定,那么也是有可能不是真的。就像,太阳从东边升起是一个常识,但是在某些外星球上,就不是这样子。也就是说,我们应该搞清楚事情发生的条件 和概率 ,才能对事件进行更加准确的估计。
对于一般的情况,我们只要 95\% 的置信水平(20 次中能中 19 次)就可以了。所以,我们要求出在钟型曲线之下 95\% 的面积。对于如上的“钟型曲线”来说,我们可以发现,与 95\% 的面积相对应的是 -196\%\sim196\% 。在掷很多枚硬币的情况下,“标准差”是硬币总数平方根的两倍,即,如果硬币数量为 x ,则误差幅度就是 \frac{196\%}{2\sqrt{x}}=\frac{98\%}{\sqrt{x}} 。换句话说,有 95\% 的概率,在掷 x 枚硬币的时候,掷出来正面(或反面)的数量与 50\% 的准确值相比,差距不会超过 \frac{98\%}{\sqrt{x}} ^{[1]} 。
总结上文一句话:误差幅度(95\% 置信水平)就是 98\% 除以硬币总数的平方根。现在,就可以进入“磕人”的环节了!
我们从简单的情况开始推。假如,你发现某某小 A 出现了可能是【数据删除】某某小 B 的行为,然后你进行评估,认为小 A 真的【数据删除】小 B 的概率是 50\% 。也就是说,这就是相当于“掷一枚硬币”。那么,如果想要让误差幅度 进入你的“可置信水平”(一般取 p 值的“可置信水平” 5\% ),那么就需要进行解不等式(设出现了 x 次才能达到):
\frac{98\%}{\sqrt{x}}\le5\%
解得 x\ge384.16 ,在整数范围内就是 x\ge 385 。也就是说,如果每天一次,那么只有一年多之后,你才能判断出这是真实发生的。所以,对于那些一看就不大真实,可信率只有 50\% 左右,甚至比 50\% 还要低的,可以忽略。这些对你来说是无用的信息。
不过,你肯定会说:我身边还有概率更高的,比如 70\% ,甚至 90\% 以上。没事!我们可以进行改动!我们发现:
对于一项发生概率为 k\% 的事件,那么它的不发生率就是 (100-k)\% ;
然后,我们发现,总会出现一个数,使得 (50\%)^w=(100-k)\% 。此时,w 就是需要掷硬币的数量,来达到这个水平。这是因为,掷硬币正面(或反面)的概率为 50\% ,掷 w 次连续掷到正面(或反面)的概率就是 (50\%)^w ,要保证和某件事情的“不发生率”相等,即 (50\%)^w=(100-k)\% 。
在这里,我们提供了一份对照表(上面的 k,w 对照表,保留 2 位小数):
事件发生率 k\%
相当于掷了硬币次数 w
60
1.32
65
1.52
70
1.74
75
2.00
80
2.32
85
2.74
90
3.32
95
4.32
99
6.64
说句闲话:其实发现在 k=99 的时候(概率为 99\% ),也只代表了连续 6.64 次 50\% ,并不是特别高。
然后,我们就可以带进去用了。刚刚的式子是 \frac{98\%}{\sqrt{x}}\le5\% ,这一次,我们使用如下式子(x 还是代表要出现的次数):
\frac{98\%}{\sqrt{wx}}\le5\%
同样可以进行解,于是:
事件发生率 k\%
需要出现的次数 x
整数范围内最小 x
60
290.59
291
65
253.57
254
70
221.16
222
75
192.08
193
80
165.44
166
85
140.36
141
90
115.64
116
95
88.89
89
99
57.82
58
这说明,就算是 99\% 的单次置信概率,都需要 58 次才能到 95\% 的“最终置信水平”。实际上,如果想要做到 99\% 的“置信水平”,那么只需要把 98\% 变为 129\% 即可。
这么多数据,应该足够了吧! 但是答案是否定的。我们还需要更多!比如说,在不同的天数内出现了概率不同的时间,套用上述公式就无法进行计算了。所以,我们还是需要更普遍的公式!
不过这更加普遍的公式推导很简单:将每一个发生率 k 在上面的对照表上找到 w ,然后我们就得到了一个“综合发生次数”,就能套用第一个不等式进行求解了。
如果共有 n 个不同的概率,对于第 i 个概率发生了 x_i 次这样的时间,这个发生率 k 所对应的 w 是 w_i ,那么综合发生率 A 求解方式就是:
A=\sum_{i=1}^{n}x_i\cdot w_i
当然如果看不懂(\sum 没学过的话),还有一个拆开的通俗公式:
A=x_1\cdot w_1+x_2\cdot w_2+\ldots+x_n\cdot w_n
然后,就没有然后了。套用第一个公式:
\frac{98\%}{\sqrt{A}}\le5\%
直接套解:A\ge384.16 ,整数范围内是 A\ge385 。
也就是说,当且仅当你所求的的 A 大于等于 385 ,才有可能是真实的事件。
综上所述:单次代表不了什么,长远才是真理!不信谣,不传谣,从我做起!
正文到此结束,下面是附文。
由于某些存在,我们可以尝试另一个不等式(由上文第一个不等式扩展而来):
1-(\frac{1}{2})^x-\frac{98\%}{\sqrt{x}}\ge95\%
解释一下:前面(1-(\frac{1}{2})^x )是纯的发生率(注意:这里默认的是每个事件发生率 50\% ,即 \frac{1}{2} ),后面是上面所说的误差幅度。这一个不等式能够得到更加准确的答案,更好地反映真实水平。
让人震惊的是,这个方程的解正好是 x\ge384.16 !和上面是一样的!这真是神奇。也就是说,基本上用上文公式即可解决问题,无需复杂化。
附文到此结束,下面是整活。
Part 3 引用(万分感谢 Qwq)
### Part 4 这是啥 QAQ
突发奇想,晚上睡觉想到的,然后第二天写下来了。没想到写了 $3.8k+$ 字。可得给我们班的“磕佬”们好好看看去。
如果有不严谨之处,欢迎指出这个蒟蒻的错误(私信、at 等均可)!谢谢大家!
说句闲话,这么点字写了我一个多小时。