2024年9月,微软签了一份20年的购电协议,支持重启三里岛核电站一号机组——一个因1979年事故关停了50年的核电站。重启的原因只有一个:给AI数据中心供电。
同一条时间线上,谷歌和亚马逊签小型核反应堆合作,马斯克在田纳西一口气拿下几十台燃气发电机,OpenAI的星际之门锁定将近5000亿美元、十几吉瓦的数据中心,黄仁勋在公开场合反复说一句话:「AI的瓶颈是电,算力的尽头是电力。」
AI的扩张从算力竞赛转入能源竞赛,这件事已经成了共识。但能源竞赛深入下去,碰到的不是一个资源问题,而是一系列物理工程问题——电缆粗细、电网审批周期、冷却效率、铜的年产量。物理世界的节奏正在决定AI可以跑多快。
AI数据中心的能源约束可以从两个维度拆解:找电(能不能拿到足够的电)和用电(拿到电之后怎么高效稳定地送给GPU)。两者背后最终归结为同一个问题:物理世界对数字世界扩张的约束正在从软约束变为硬约束。
功率密度暴涨:一个数量级级别的跳跃
数据中心不是新事物。云计算时代一个标准机柜功率是10到30千瓦,很少有超过30的。AI改变了这个数字。
英伟达H100机柜跳到40千瓦,比传统云计算翻倍。下一代GB200跳到120到140千瓦,又翻了3倍。再下一代计划2027年量产的Rubin Ultra架构,单机柜会到600千瓦到1兆瓦——比传统云计算翻了几十到上百倍。
一个AI数据中心的典型规模是吉瓦级。一吉瓦大约相当于一个800万人口中型城市的用电量。这些数字叠加起来,数据中心从一个机房变成了一个「吃土、吃水、吃电、吃芯片,吐token的大怪兽」。
电力相关的基建和电费已经占到数据中心全生命周期成本的1/5到1/4。电从成本项变成了生产要素——电跟不上,再先进的显卡也只能干等着折旧。
找电:美国vs中国的结构性差异
中国和美国在「找电」这件事上面对完全不同的条件。
中国的电网有国家层面的顶层设计和调度。东数西算工程布局了八个骨干节点,数据中心部署在这些节点附近,从总量角度相对够用。
美国的情况复杂得多。首先电网老旧,升级缓慢。更根本的问题是美国的电网按州管理——一个吉瓦级的数据中心相当于一个中小城市,放在哪里都会遭遇当地居民反对。拿到政府的并网审批,光排队就要好几年。
等不起的AI大厂只能自己发电。它们的选择构成了一个按时间尺度排列的菜单:
- 长期方案:核电。稳定、零碳、24小时供应。但一个新反应堆从立项到发电需要5到10年。微软、谷歌、亚马逊、Meta都在签长期购电协议,赌的都是这个时间尺度。
- 中期过渡:天然气。快,几个月就能用上。代价是排放和环保机构的持续警告。马斯克在密西西比和田纳西拿了大量燃气轮机许可。
- 短期补充:风光+储能。不稳定——太阳说没就没,风忽大忽小。对高度稳定的数据中心来说,绿电的间歇性本身就是问题。
- 出海绕路:去监管松的地方建——OpenAI在阿联酋谈大型数据中心,亚马逊和Oracle在西班牙、泰国建。更进一步,马斯克和谷歌考虑把数据中心搬到太空。
「在找电这块,真是被巨头们给玩明白了。上天入地,一个比一个敢想。」
用电:华为数据中心的实地解构
找电只是故事的一半。电拿到了,怎么高效稳定地送给GPU是另一半。小Lin说直接进了华为AI数据中心的现场,从供电舱到液冷机柜做了完整拆解。
供电三步骤
电从电网到服务器,经过三层处理:进线——电网高压电通过变压器降到380伏;UPS(不间断电源)——把电网不稳定的电转换成服务器能用的稳定电;馈线——把电分配给每个机柜和每台服务器。
关键设备是UPS。它的工作原理类似电脑电源,但要求高了几个量级:服务器电容只能扛毫秒级的断电,所以UPS必须在几个毫秒内完成切换。华为的方案是模块化设计——UPS内部由若干小模块拼成,每块都可以热插拔,检修时不用关机,直接拔出旧模块换新。
UPS外面配锂电(能撑10到15分钟),锂电外面还可以接柴油发电机(撑更久)。每一级都有冗余备份。
到300千瓦机柜这个级别,一根电缆的粗细接近奶粉罐。若干根这样的电缆要同时接入一个机柜——物理上放不下。这是AI数据中心遇到的第一个「物理极限」问题。
液冷散热
一个300千瓦的机柜相当于一两百个电炉子同时在工作。热散不出去,服务器直接烧了。
华为数据中心的方案是液冷:冷水通过供水管进入服务器内部微管(像毛细血管一样),带走GPU热量后变成热水流出。液冷带走约95%的热量,剩余由风冷补充。热水汇集到热管理控制器(TMU),实时监测每路的温度、流量、速度和压力,动态调整水流。
TMU不仅控制热量交换,还做预测性维护。液冷系统最怕漏和堵——漏可能导致短路,堵则热散不出去,两者都会烧毁GPU。华为的思路是用AI模型训练运维数据,在微渗漏发生之前就预警。
电缆太粗进不去:物理极限的暴露
功率=电压×电流。功率要提高,要么加压要么加流。但电流越大,电缆就得越粗。到300千瓦机柜级别,电缆粗到奶粉罐的程度,一个机柜就那么大的空间,放不下。
解决方案方向是高压直流或800伏供电——电压高了,同样功率下电流就可以小,线缆就能细。但问题在于强电跟信息技术不一样:电网频率是50赫兹,你说改成800伏标准,意味着所有配电设备、开关、零部件都要适配新标准。这不是技术问题,是生态适配问题。
黄仁勋公开提过这个方向。华为也在做。双方都认可高压直流是方向,但路线是「多元架构并存」,不是一步到位。
从用电户到电网合伙人:构网能力
AI数据中心还有一个特殊的用电特征——GPU的「暴脾气」。
训练时成千上万张卡同时启动,负载瞬间拉满;训练阶段结束需要保存,负载又猛地掉下来。对电网来说,就是负载一会儿巨大,一会儿消失。到吉瓦级规模,这种波动足以影响区域电网稳定性。电网调度跟不上,可能导致发电机跳闸乃至大面积停电。
传统方案是靠UPS兜底。但华为提出了一个三级递进的能力框架:
- 电网适应:电网质量差一点,数据中心靠UPS也能正常工作。
- 电网支撑:电网发生局部故障时,数据中心不能随意断开,要在0.5到1秒内恢复连接,否则负载和电源失衡。
- 构网:数据中心反过来向电网主动提供无功功率——以前电网给你电,现在你帮电网稳定电压。从用户变成合伙人。
专业术语叫源网荷储——电源、电网、负荷、储能四端协同。华为的思路是通过这个框架把数据中心从「电老虎」改造成「稳压器」。
物理世界拖住了AI
回到开头的问题。AI怎么就成了能源之战?
这个问题再往深一层看,答案是物理世界和数字世界之间的碰撞。过去几十年互联网发展主要靠代码和软件,物理层阻力很小。但现在的AI是把水电、硅实实在在地烧成token。它的扩张速度必须服从电网建设速度、核电审批周期、变压器供货周期和铜的年产量。
到了2026年,AI前沿公司已经集体回到了能源和基建——那些看着最朴素、最不性感的产业。把数据中心搬到太空听着很科幻,但它恰恰反映了地球物理层面的硬约束。
「AI是物理世界拖住数字世界速度的一个典型案例。过去软件跑得比硬件快,现在硬件的物理极限写在了电线上——线太粗,进不去。」