【整活】你是怎么磕别人的 /kel

· · 算法·理论

Part 1 前置知识(知道的敬请跳过)

Part I 钟型曲线

首先,我们要了解掷硬币。对于掷硬币,在大多数情况,概率都是一半对一半(50\%50\% 反)。也就是说,当我们掷硬币的次数越多,那么抛到正面和反面的次数就越趋近于一半(大数定律)。抛的次数越多,那么这边抛到某个特定次数的概率就是正态分布曲线,即钟型曲线,如图。

(图片来源于百度)

以上纵轴是发生的概率,横轴是正面(或反面)出现的次数。这里正中央的灰色细线是代表正好 50\%,两边是分别递减。可以发现,自中间向两边,概率减小的会越来越缓慢,但是比较旁边的“地带”概率都是趋近于 0 的。这种基本事实叫做中心极限定理

Part II p 值的定义(简单死了

p 值”这个词看上去老高深了,其实就是一句话:某个事情发生的概率。就这样,完了。

在数学、科学上,我们经常以 p 值取 5\% 为“可置信水平”,即不发生概率在 5\% 以下就是基本上会发生(显然不是一定发生)。

Part 2 开始磕人(?正文在这里

在日常生活中,我们会经常观察到一些现象,比如远方传来某某小 A【数据删除】某某小 B 的言论(不一定是谣言,当然也不一定不是真的)。这样的话语,经常会一传十,十传百,导致可能本来就是谣言(比如开开玩笑),最后不得不被迫变为真实的话语,导致不必要的伤害 (bruh

《穿井得一人》之中告诉我们,对于一些听起来就不太真,甚至是听起来就是真的事件,我们也要去实践、去调查,搞清楚这件事是否真正发生。更进一步,世界上没有什么绝对的事情,就算你觉得它就是一定,那么也是有可能不是真的。就像,太阳从东边升起是一个常识,但是在某些外星球上,就不是这样子。也就是说,我们应该搞清楚事情发生的条件概率,才能对事件进行更加准确的估计。

对于一般的情况,我们只要 95\% 的置信水平(20 次中能中 19 次)就可以了。所以,我们要求出在钟型曲线之下 95\% 的面积。对于如上的“钟型曲线”来说,我们可以发现,与 95\% 的面积相对应的是 -196\%\sim196\%。在掷很多枚硬币的情况下,“标准差”是硬币总数平方根的两倍,即,如果硬币数量为 x,则误差幅度就是 \frac{196\%}{2\sqrt{x}}=\frac{98\%}{\sqrt{x}}。换句话说,有 95\% 的概率,在掷 x 枚硬币的时候,掷出来正面(或反面)的数量与 50\% 的准确值相比,差距不会超过 \frac{98\%}{\sqrt{x}} ^{[1]}

总结上文一句话:误差幅度(95\% 置信水平)就是 98\% 除以硬币总数的平方根。现在,就可以进入“磕人”的环节了!

我们从简单的情况开始推。假如,你发现某某小 A 出现了可能是【数据删除】某某小 B 的行为,然后你进行评估,认为小 A 真的【数据删除】小 B 的概率是 50\%。也就是说,这就是相当于“掷一枚硬币”。那么,如果想要让误差幅度进入你的“可置信水平”(一般取 p 值的“可置信水平” 5\%),那么就需要进行解不等式(设出现了 x 次才能达到):

\frac{98\%}{\sqrt{x}}\le5\%

解得 x\ge384.16,在整数范围内就是 x\ge 385。也就是说,如果每天一次,那么只有一年多之后,你才能判断出这是真实发生的。所以,对于那些一看就不大真实,可信率只有 50\% 左右,甚至比 50\% 还要低的,可以忽略。这些对你来说是无用的信息。

不过,你肯定会说:我身边还有概率更高的,比如 70\%,甚至 90\% 以上。没事!我们可以进行改动!我们发现:

在这里,我们提供了一份对照表(上面的 k,w 对照表,保留 2 位小数):

事件发生率 k\% 相当于掷了硬币次数 w
60 1.32
65 1.52
70 1.74
75 2.00
80 2.32
85 2.74
90 3.32
95 4.32
99 6.64

说句闲话:其实发现在 k=99 的时候(概率为 99\%),也只代表了连续 6.6450\%,并不是特别高。

然后,我们就可以带进去用了。刚刚的式子是 \frac{98\%}{\sqrt{x}}\le5\%,这一次,我们使用如下式子(x 还是代表要出现的次数):

\frac{98\%}{\sqrt{wx}}\le5\%

同样可以进行解,于是:

事件发生率 k\% 需要出现的次数 x 整数范围内最小 x
60 290.59 291
65 253.57 254
70 221.16 222
75 192.08 193
80 165.44 166
85 140.36 141
90 115.64 116
95 88.89 89
99 57.82 58

这说明,就算是 99\% 的单次置信概率,都需要 58 次才能到 95\% 的“最终置信水平”。实际上,如果想要做到 99\% 的“置信水平”,那么只需要把 98\% 变为 129\% 即可。

这么多数据,应该足够了吧! 但是答案是否定的。我们还需要更多!比如说,在不同的天数内出现了概率不同的时间,套用上述公式就无法进行计算了。所以,我们还是需要更普遍的公式!

不过这更加普遍的公式推导很简单:将每一个发生率 k 在上面的对照表上找到 w,然后我们就得到了一个“综合发生次数”,就能套用第一个不等式进行求解了。

如果共有 n 个不同的概率,对于第 i 个概率发生了 x_i 次这样的时间,这个发生率 k 所对应的 ww_i,那么综合发生率 A 求解方式就是:

A=\sum_{i=1}^{n}x_i\cdot w_i

当然如果看不懂(\sum 没学过的话),还有一个拆开的通俗公式:

A=x_1\cdot w_1+x_2\cdot w_2+\ldots+x_n\cdot w_n

然后,就没有然后了。套用第一个公式:

\frac{98\%}{\sqrt{A}}\le5\%

直接套解:A\ge384.16,整数范围内是 A\ge385

也就是说,当且仅当你所求的的 A 大于等于 385,才有可能是真实的事件。

综上所述:单次代表不了什么,长远才是真理!不信谣,不传谣,从我做起!

正文到此结束,下面是附文。

由于某些存在,我们可以尝试另一个不等式(由上文第一个不等式扩展而来):

1-(\frac{1}{2})^x-\frac{98\%}{\sqrt{x}}\ge95\%

解释一下:前面(1-(\frac{1}{2})^x)是纯的发生率(注意:这里默认的是每个事件发生率 50\%,即 \frac{1}{2}),后面是上面所说的误差幅度。这一个不等式能够得到更加准确的答案,更好地反映真实水平。

让人震惊的是,这个方程的解正好是 x\ge384.16!和上面是一样的!这真是神奇。也就是说,基本上用上文公式即可解决问题,无需复杂化。

附文到此结束,下面是整活

Part 3 引用(万分感谢 Qwq)

如果有不严谨之处,欢迎指出这个蒟蒻的错误(私信、at 等均可)!谢谢大家!

说句闲话,这么点字写了我一个多小时。