📋 核心判断

自然测量数据的热力学级随机误差导致末位数字服从均匀分布(0~9 各 1/10)。人工编造的数据往往在某个数字上出现异常聚集。利用组合公式可以计算"数据是自然产生"的概率——70 个数据中有 26 个以 5 结尾时,数据真实的概率仅为 10⁻⁹(双色球头奖概率的十分之一)。

实例:70 个数据 26 个以 5 结尾

检查论文数据是否造假的原理,建立在测量误差的物理性质上。任何物理测量都存在热力学级别的随机误差。当实验数据的波动范围足够大时,末位数就是 0~9 中的一个均匀随机变量——每个数字出现的概率都是 1/10。不同次测量的误差彼此独立。如果把 70 个数据的末位数看成 70 个独立随机变量,每个是 5 的概率为 0.1,那么有 26 个 5 的概率就是:

P = C(70, 26) × (0.1)²⁶ × (0.9)⁴⁴
C(70, 26) = 70! / (26! × 44!)

计算结果约为 1.3 × 10⁻⁹(十亿分之一)。这里 C(n, k) 是组合数,表示从 70 个位置中选出 26 个来"放 5"的方式数。

如果同时注意到数据里还没有 3 和 7(即剩下 44 个数据也不在 3/7 上),那么剩余每个位置"不是 5"的概率从 0.9 缩小到 0.7,概率进一步缩小到 4.4 × 10⁻¹⁴

对比参考

  • 双色球头奖概率:约 1.7 × 10⁻⁸
  • 70 个数据中恰好 7 个以 5 结尾(正态情况):约 0.157
  • 90% 置信区间内任一末位数字出现次数不超过 10 次

为什么 N 增大时偏差越来越"不可接受"?

直觉陷阱:10% 的偏差(50% → 60%)在 N=10 时很常见——概率 37.7%,在 N=1000 时却几乎不可能——概率 1.3 × 10⁻¹⁰。这可以用高尔顿板来可视化。

高尔顿板与抛硬币的同构

小球从上方掉下,每遇到一根柱子有 1/2 概率向左、1/2 概率向右——完全等价于抛硬币(正面=右,反面=左)。小球最终横向落点的位置,精确记录了 N 次抛掷中"正面比反面多多少"。

  • 落在最左端:N 次全是反面
  • 落在正中心:正反次数相等
  • 向右偏移 1 格:正面比反面多 1 次

用大量小球同时做实验,本质上就是自然的并行采样计算。

中心化(Concentration)

把硬币抛掷结果记作 +1(正面)和 -1(反面),N 次的总和除以 N 就是均值。大数定律(Law of Large Numbers)的核心结论是:当 N 足够大时,均值以极高的概率集中在期望值附近。

从高尔顿板可以直观看到:N=10 时,偏离中心 2 格以上的小球比例还很多;N=50 时已经很少;N=1000 时几乎不可见。

在概率论中,这一现象被精确量化为中心极限定理(Central Limit Theorem):均值的分布趋向于正态分布 𝒩(μ, σ²/N),标准差以 1/√N 的速度收缩。

数学推导:从杨辉三角到高斯分布

考虑第 2N 行的杨辉三角。正中心的组合数为 C(2N, N),偏离中心 X 位置的组合数为 C(2N, N+X)。它们的比值:

R(X) = C(2N, N)² / [ C(2N, N+X) · C(2N, N−X) ]

斯特林公式(Stirling's Approximation)

对阶乘取近似:

n! ≈ √(2πn) · (n/e)ⁿ

代入所有阶乘,将比值化为:

R(X) ≈ 1 / [ (1 + X/N)ᴺ⁺ˣ · (1 − X/N)ᴺ⁻ˣ ]

取对数:

ln R(X) = −(N+X)·ln(1+X/N) − (N−X)·ln(1−X/N)

N ≫ X 时,使用一阶泰勒展开 ln(1+ε) ≈ ε

ln R(X) ≈ −(N+X)·(X/N) − (N−X)·(−X/N)

化简得到:

ln R(X) ≈ −2X²/N

两边取指数:

R(X) ≈ e^(−2X²/N)

这正是高斯分布(正态分布) e^(−x²) 形式的缩放版。它解释了为什么杨辉三角第 N 行在 N 很大时自动呈现钟型曲线。

收缩速度的直观理解

分布的中心部分宽度约为 √N,而杨辉三角第 2N 行的总宽度为 2N。随着 N 增大:

实际充填宽度 / 总宽度 ≈ √N / 2N = 1 / (2√N) → 0

即:有效出口占总出口的比例越来越小——这就是"中心化"在物理上的直观含义。

赌场应用:2.8% 的数学铁律

三个骰子猜大小的游戏中,一半情况为大、一半为小,看起来公平。但多了"豹子(三个骰子同点数)庄家通杀"的规则:

P(豹子) = 6 / 6³ = 1/36 ≈ 2.78%

这导致:

P(庄家赢) = 0.5 + 1/72 ≈ 51.39%
P(玩家赢) = 0.5 − 1/72 ≈ 48.61%

庄家胜率只高出 2.8 个百分点——但大数定律保证:玩得越多,庄家赢走的筹码占总赌注的比例就越精确地收敛到 2.8%。不怕你赢,就怕你不来。

可复用的打假检查框架

将末位数字打假法总结为以下步骤:

  1. 提取:从实验数据中提取所有数值的末位数字
  2. 统计:统计每个数字(0~9)出现的频次
  3. 计算:对可疑的数字 k,若出现 n 次,总数据量 N,则
    P = C(N, n) × (0.1)ⁿ × (0.9)ᴺ⁻ⁿ
  4. 阈值判定:P < 10⁻⁶(百万分之一)即为强造假信号
  5. 交叉验证:结合本福特定律(首位数字分布)等多维度检验