自然测量数据的热力学级随机误差导致末位数字服从均匀分布(0~9 各 1/10)。人工编造的数据往往在某个数字上出现异常聚集。利用组合公式可以计算"数据是自然产生"的概率——70 个数据中有 26 个以 5 结尾时,数据真实的概率仅为 10⁻⁹(双色球头奖概率的十分之一)。
实例:70 个数据 26 个以 5 结尾
检查论文数据是否造假的原理,建立在测量误差的物理性质上。任何物理测量都存在热力学级别的随机误差。当实验数据的波动范围足够大时,末位数就是 0~9 中的一个均匀随机变量——每个数字出现的概率都是 1/10。不同次测量的误差彼此独立。如果把 70 个数据的末位数看成 70 个独立随机变量,每个是 5 的概率为 0.1,那么有 26 个 5 的概率就是:
计算结果约为 1.3 × 10⁻⁹(十亿分之一)。这里 C(n, k) 是组合数,表示从 70 个位置中选出 26 个来"放 5"的方式数。
如果同时注意到数据里还没有 3 和 7(即剩下 44 个数据也不在 3/7 上),那么剩余每个位置"不是 5"的概率从 0.9 缩小到 0.7,概率进一步缩小到 4.4 × 10⁻¹⁴。
对比参考
- 双色球头奖概率:约 1.7 × 10⁻⁸
- 70 个数据中恰好 7 个以 5 结尾(正态情况):约 0.157
- 90% 置信区间内任一末位数字出现次数不超过 10 次
为什么 N 增大时偏差越来越"不可接受"?
直觉陷阱:10% 的偏差(50% → 60%)在 N=10 时很常见——概率 37.7%,在 N=1000 时却几乎不可能——概率 1.3 × 10⁻¹⁰。这可以用高尔顿板来可视化。
高尔顿板与抛硬币的同构
小球从上方掉下,每遇到一根柱子有 1/2 概率向左、1/2 概率向右——完全等价于抛硬币(正面=右,反面=左)。小球最终横向落点的位置,精确记录了 N 次抛掷中"正面比反面多多少"。
- 落在最左端:N 次全是反面
- 落在正中心:正反次数相等
- 向右偏移 1 格:正面比反面多 1 次
用大量小球同时做实验,本质上就是自然的并行采样计算。
中心化(Concentration)
把硬币抛掷结果记作 +1(正面)和 -1(反面),N 次的总和除以 N 就是均值。大数定律(Law of Large Numbers)的核心结论是:当 N 足够大时,均值以极高的概率集中在期望值附近。
从高尔顿板可以直观看到:N=10 时,偏离中心 2 格以上的小球比例还很多;N=50 时已经很少;N=1000 时几乎不可见。
在概率论中,这一现象被精确量化为中心极限定理(Central Limit Theorem):均值的分布趋向于正态分布 𝒩(μ, σ²/N),标准差以 1/√N 的速度收缩。
数学推导:从杨辉三角到高斯分布
考虑第 2N 行的杨辉三角。正中心的组合数为 C(2N, N),偏离中心 X 位置的组合数为 C(2N, N+X)。它们的比值:
斯特林公式(Stirling's Approximation)
对阶乘取近似:
代入所有阶乘,将比值化为:
取对数:
当 N ≫ X 时,使用一阶泰勒展开 ln(1+ε) ≈ ε:
化简得到:
两边取指数:
这正是高斯分布(正态分布) e^(−x²) 形式的缩放版。它解释了为什么杨辉三角第 N 行在 N 很大时自动呈现钟型曲线。
收缩速度的直观理解
分布的中心部分宽度约为 √N,而杨辉三角第 2N 行的总宽度为 2N。随着 N 增大:
即:有效出口占总出口的比例越来越小——这就是"中心化"在物理上的直观含义。
赌场应用:2.8% 的数学铁律
三个骰子猜大小的游戏中,一半情况为大、一半为小,看起来公平。但多了"豹子(三个骰子同点数)庄家通杀"的规则:
这导致:
P(玩家赢) = 0.5 − 1/72 ≈ 48.61%
庄家胜率只高出 2.8 个百分点——但大数定律保证:玩得越多,庄家赢走的筹码占总赌注的比例就越精确地收敛到 2.8%。不怕你赢,就怕你不来。
可复用的打假检查框架
将末位数字打假法总结为以下步骤:
- 提取:从实验数据中提取所有数值的末位数字
- 统计:统计每个数字(0~9)出现的频次
- 计算:对可疑的数字 k,若出现 n 次,总数据量 N,则
P = C(N, n) × (0.1)ⁿ × (0.9)ᴺ⁻ⁿ
- 阈值判定:P < 10⁻⁶(百万分之一)即为强造假信号
- 交叉验证:结合本福特定律(首位数字分布)等多维度检验