个体打假者的胜率不取决于其专业能力,而取决于其能否撬动制度——而现有学术生产机制恰恰是"反撬动"的设计。
一、引子:耿同学被永久限流,与一万公里外的六个美国案件
2026年5月28日,国内学术打假博主"耿同学"的抖音账号被判永久限流、星图商单永久封禁。他在四月份开始的连续举报,先后让同济大学一位院长被免职并降两级、南开与中山启动调查;他手里还握着五名杰青涉嫌造假的证据,发表在Nature正刊与子刊上。
耿同学本人的履历很特殊:吉林大学生物学本硕、北京航空航天大学博士五年级肄业。他不是某位资深院士的弟子,也不是在体制内拥有庇护的人——他是一个"已离开学术圈的人"。这种身份反而成了他打假能力的来源:他不担心得罪同行、不担心项目被卡、不担心被学术圈排斥。央媒报道之后,他仍然被限流。
国内已经有人用"包工头—项目—分包—帽子"四步循环来解释为什么学术大牛造假难以被制衡。但那个分析停留在"国内为何如此"。而本案例将视角推到全球尺度——美国有更厚的经费、更多的顶刊、更独立的司法体系,照样养出了一代又一代的"耿同学",照样被消耗、被边缘化、被消失。
结论很硬:再多的耿同学也没用,因为现有的学术生产机制本身就在鼓励造假。
二、机制问题:为什么孤勇者总输给制度
机制层面的核心矛盾是激励不对称:
- 造假者的回报:拿到经费、发表顶刊、获得头衔、被同事引述、被学生追随。每一项都是可量化的资本积累。
- 打假者的代价:被消耗、被边缘化、被平台限流、被同行排斥、被合作者切割。每一项都是不可逆的资本损耗。
这种不对称在美国四个标杆案件里反复呈现:
杜克大学(2019)
肺科实验室技术员Joseph Thomas因信用卡盗刷案意外发现,数据造假不止账本——还有实验数据。学术带头人用假数据骗经费,校方护着他、对他进行职场打压。Thomas最终以《虚假申报法》起诉,2019年杜克大学承认从2006年到2018年在明知造假的情况下申请了30多项研究经费,赔偿美国政府1.125亿美元,Thomas个人获3300–3375万美元奖金。
斯坦福大学(2023)
神经科学家、前校长Marc Tessier-Lavigne长期被传论文图像P图,直到17岁大一新生、斯坦福日报记者Theo Baker在PubPeer上看到一个匿名贴后展开调查。2023年7月,独立调查报告认定他作为主要作者的5篇论文中4篇存在他人操纵数据,多篇论文被撤稿,Tessier-Lavigne辞职。
哈佛Dana-Farber癌症研究所(2025)
英国生物技术从业者、业余学术侦探Sholto David在PubPeer上长期标记论文问题。2024年1月,他在博客上集中揭发Dana-Farber 57篇论文存在图像重复、旋转180度等造假,涉事高管包括CEO Laurie Glimcher、COO William Hahn、SVP Irene Ghobrial。2024年4月他根据《虚假申报法》起诉,2025年12月和解,DFCI支付1500万美元,David获约263万美元。
明尼苏达大学(2022)
神经科学家Sylvain Lesné 2006年在Nature发表的奠基性论文声称发现由56个单位组成的淀粉样蛋白团块Aβ*56,注射给小鼠可让它们失忆。这篇论文被引超过2300次,是阿尔茨海默症"淀粉样蛋白假说"的核心支柱之一。16年后,Science调查报告揭发论文图像是从不相干的实验里复制粘贴的。Lesné二十年来的多篇论文都被发现P图,全球药企和科研机构为此走了16年的冤枉路。
揭发者几乎都是"局外人"——Thomas是技术员、Baker是大一新生、David是英国生物技术公司的"打工人"、Lesné案的揭发者是Science杂志的独立调查记者。他们之所以能揭发成功,恰恰因为他们不在体制内。体制内的"耿同学"——博士在读的、青年教师、刚入行的博后——几乎都选择了沉默。
机制没有给"局内人"留下打假的接口。打假接口只对"局外人"开放,而局外人被消耗得更快。
三、领域分布:理工科的高曝光与文科的"垃圾填埋场"
造假不是均质分布的。理工科造假更容易曝光、影响更大、监管更严——但也仅此而已。
3.1 理工科造假的三个突出危害
第一,巨大的经济损害。 Lesné一篇伪造的论文,让全球药企投入了数十亿美元的研发资金,最终化为泡影。Dana-Farber一家机构的57篇造假论文,可能涉及数千万到数亿美元的联邦经费。杜克大学一家就被罚1.125亿美元。
第二,公共健康威胁。 1998年英国医生Andrew Wakefield在《柳叶刀》发表论文,声称MMR麻疹-腮腺炎-风疹三联疫苗可能导致儿童自闭症。论文虽然于2010年被《柳叶刀》彻底撤稿,但反疫苗运动(anti-vaxxer)已经成型。麻疹疫情的全球回升是事实。
第三,跨界骗局的荒诞。 Elizabeth Holmes创办的Theranos宣称"扎一滴血就能测200多项指标",前国务卿基辛格、前国防部长马蒂斯都为其站台,估值一度达90亿美元。实际上设备靠改装第三方商用机器跑数据。Holmes 2022年被裁定4项罪名成立,从"女版乔布斯"变成阶下囚。造假者不去找医学界同行评议,而去找政界大佬背书,然后用"前国务卿站台"代替"FDA批准"。
3.2 文科造假的低曝光与高渗透
理工科造假有数据、有图像、有可重复实验的硬约束,所以更容易暴露。文科造假是另一套逻辑——选题平庸、方法随意、统计操纵、结论难以证伪。
荷兰蒂尔堡大学社会心理学家Diederik Stapel是教科书级别的案例。他先预设结论(例如"看帅哥靓女的照片会让人感到自卑"),自己做实验得不到预期结果,就手工硬搓数据;甚至有些研究根本没做实验,全靠编造。最终他在至少55篇论文和10篇博士论文中存在数据造假行为,被揭发后整个荷兰学界痛定思痛,推动了《荷兰诚信研究行为准则》的发布。
更危险的是"看似无聊的选题也可能影响公共决策"。杜克大学的Dan Ariely与哈佛的Francesca Gino等人2012年在PNAS联合发表论文,结论是"在表格顶部签名(先承诺)会比在表格底部签名让人更诚实"。这个结论被美国国税局、无数政府机构、保险公司直接采用,修改了申报表格的模板。2021年起,行为科学家Uri Simonsohn、Joseph Simmons、Leif Nelson在DataColada博客持续揭发这篇论文数据造假,Gino后来被哈佛撤终身教职(自1940年代哈佛制定剥夺终身教职规则以来的首例)。
3.3 P值操纵的"中间地带"
P值操纵(P-hacking)介于理工科造假和文科造假之间——既不是"造数据",也不是"凑结论",而是从方法设计、统计过程、样本筛选的每一个环节,都可以灵活操作让结果达到p < 0.05这种"统计显著"的标准。有研究者通读2578篇社科论文,发现统计学方法漏洞百出,结论根本经不起推敲。绝大多数论文样本量太小——20来个人参加实验——但照样发顶刊,照样被引用,照样影响政策。
统计显著就是发文的硬通货,而统计显著可以通过操纵得到。
四、可重复性危机:把"反撬动"机制具象化为数字
机制问题最直接的量化证据,来自制药业的两次大规模复现实验:
2011年,拜耳(Bayer)对67个潜在新药靶点进行复现实验,结果不到四分之一能重复。
2012年,安进(Amgen)复查53项高影响肿瘤学研究,仅6项可重复——复现率11%。
巴西2025年47项实验、56家实验室参与的大规模复现:仅21%可被验证。
学术界自己也没有好到哪里去。一项2021年发表于eLife的总结指出:学术界至少一半以上的癌症生物学实验很有可能不能重复。
可重复性危机的危害不在于"有些研究错了",而在于它会自我强化。研究者倾向于引用可发表的结果("阳性发现"),不显著的研究被锁在文件柜里。引用网络把少数被引爆的"阳性发现"(无论真假)塑造成共识,下一代研究者在这套共识基础上构建新研究,错的结论被反复叠加、反复验证、反复引用。Lesné的Aβ*56论文被引超过2300次——这2300次引用既是科学影响力的证明,也是错误被放大的2300次机会。
五、贝泽曼五条:可操作的改革路径
哈佛商学院的Max Bazerman在关于学术丑闻的著作中写道:大量学术研究只是业余人士为了享受学术地位带来的好处而进行的毫无意义的活动。他和其他美国智库、学者提出了五条可操作的改革路径:
- 预登记假设 + 透明数据平台。 研究者在实验前先在公开平台登记假设、设计方案、数据收集计划,事后用平台上的方案与实际数据对比。这一招切断了"先有结论再倒推假设"的可能性。
- 10%复现专项经费。 科研资金中拿出10%专门用于复现他人的研究——这10%是科研体系的"质检环节"。复现率上不去,整个领域的方向就是错的。
- p阈值从0.05收紧到0.005。 p < 0.05的标准在1925年被提出时实验成本很高、样本量很小;今天一份癌症研究动辄涉及上千个变量,0.05的阈值已经太宽松了。
- 废除伪引用论。 当前的"影响因子"游戏让论文互相引用——垃圾引用垃圾,被引高的论文往往不是好论文,而是处于热门赛道里"自然被引"高的论文。
- 作者自掏腰包下注。 让论文作者自己拿出真金白银,赌自己的研究能被第三方成功复现;如果复现失败,作者赔钱。这一招把"发表激励"和"真实性激励"对齐。
这五条不是空想。荷兰在Stapel案之后用十年时间推动了《荷兰诚信研究行为准则》,明确了"诚实、严谨、透明、独立、责任"五项原则,并且系统性推升了对研究诚信的重视程度。改革不是不可能——但前提是有人愿意承担改革的成本。
六、为什么这条路径对国内同样适用
论文制造的马力比美国大得多,但机制更脆弱。
理由很直接:美国的学术体系有相对独立的司法介入(《虚假申报法》让Thomas、David这样的揭发者拿到千万美元级别的奖金)、有相对独立的同行评议(虽然有"大牛豁免"惯性)、有相对独立的媒体调查(Science调查Lesné案耗时近一年)。即便如此,可重复性危机依然严重。
国内的体系里,独立的司法介入几乎缺位、同行评议的独立性更弱、独立媒体调查在学术领域几乎没有空间。耿同学的打假路径在国内走到了尽头——平台限流、机构自查、真假莫辨——这跟Thomas、David案有类似的"打假者被消耗"轨迹,但缺少类似的司法奖励。
如果连美国这种制度厚度都需要五条改革路径同时推进才能让可重复性危机从"危机"变成"可控",那么国内需要的远比再多几个耿同学——独立的学术监察机构、强制性的数据共享、专项的复现经费、真正能"落马"造假者的司法介入,这些基础工程缺一不可。