从算力到电力——AI数据中心功率密度的物理约束

2024年9月，微软签了一份20年的购电协议，支持重启三里岛核电站一号机组——一个因1979年事故关停了50年的核电站。重启的原因只有一个：给AI数据中心供电。

同一条时间线上，谷歌和亚马逊签小型核反应堆合作，马斯克在田纳西一口气拿下几十台燃气发电机，OpenAI的星际之门锁定将近5000亿美元、十几吉瓦的数据中心，黄仁勋在公开场合反复说一句话：「AI的瓶颈是电，算力的尽头是电力。」

AI的扩张从算力竞赛转入能源竞赛，这件事已经成了共识。但能源竞赛深入下去，碰到的不是一个资源问题，而是一系列物理工程问题——电缆粗细、电网审批周期、冷却效率、铜的年产量。物理世界的节奏正在决定AI可以跑多快。

📋 核心框架

AI数据中心的能源约束可以从两个维度拆解：找电（能不能拿到足够的电）和用电（拿到电之后怎么高效稳定地送给GPU）。两者背后最终归结为同一个问题：物理世界对数字世界扩张的约束正在从软约束变为硬约束。

功率密度暴涨：一个数量级级别的跳跃

数据中心不是新事物。云计算时代一个标准机柜功率是10到30千瓦，很少有超过30的。AI改变了这个数字。

英伟达H100机柜跳到40千瓦，比传统云计算翻倍。下一代GB200跳到120到140千瓦，又翻了3倍。再下一代计划2027年量产的Rubin Ultra架构，单机柜会到600千瓦到1兆瓦——比传统云计算翻了几十到上百倍。

一个AI数据中心的典型规模是吉瓦级。一吉瓦大约相当于一个800万人口中型城市的用电量。这些数字叠加起来，数据中心从一个机房变成了一个「吃土、吃水、吃电、吃芯片，吐token的大怪兽」。

📝 成本占比

电力相关的基建和电费已经占到数据中心全生命周期成本的1/5到1/4。电从成本项变成了生产要素——电跟不上，再先进的显卡也只能干等着折旧。

找电：美国vs中国的结构性差异

中国和美国在「找电」这件事上面对完全不同的条件。

中国的电网有国家层面的顶层设计和调度。东数西算工程布局了八个骨干节点，数据中心部署在这些节点附近，从总量角度相对够用。

美国的情况复杂得多。首先电网老旧，升级缓慢。更根本的问题是美国的电网按州管理——一个吉瓦级的数据中心相当于一个中小城市，放在哪里都会遭遇当地居民反对。拿到政府的并网审批，光排队就要好几年。

等不起的AI大厂只能自己发电。它们的选择构成了一个按时间尺度排列的菜单：

长期方案：核电。稳定、零碳、24小时供应。但一个新反应堆从立项到发电需要5到10年。微软、谷歌、亚马逊、Meta都在签长期购电协议，赌的都是这个时间尺度。
中期过渡：天然气。快，几个月就能用上。代价是排放和环保机构的持续警告。马斯克在密西西比和田纳西拿了大量燃气轮机许可。
短期补充：风光+储能。不稳定——太阳说没就没，风忽大忽小。对高度稳定的数据中心来说，绿电的间歇性本身就是问题。
出海绕路：去监管松的地方建——OpenAI在阿联酋谈大型数据中心，亚马逊和Oracle在西班牙、泰国建。更进一步，马斯克和谷歌考虑把数据中心搬到太空。

「在找电这块，真是被巨头们给玩明白了。上天入地，一个比一个敢想。」

—— 小Lin说

用电：华为数据中心的实地解构

找电只是故事的一半。电拿到了，怎么高效稳定地送给GPU是另一半。小Lin说直接进了华为AI数据中心的现场，从供电舱到液冷机柜做了完整拆解。

供电三步骤

电从电网到服务器，经过三层处理：进线——电网高压电通过变压器降到380伏；UPS（不间断电源）——把电网不稳定的电转换成服务器能用的稳定电；馈线——把电分配给每个机柜和每台服务器。

关键设备是UPS。它的工作原理类似电脑电源，但要求高了几个量级：服务器电容只能扛毫秒级的断电，所以UPS必须在几个毫秒内完成切换。华为的方案是模块化设计——UPS内部由若干小模块拼成，每块都可以热插拔，检修时不用关机，直接拔出旧模块换新。

UPS外面配锂电（能撑10到15分钟），锂电外面还可以接柴油发电机（撑更久）。每一级都有冗余备份。

📝 物理极限

到300千瓦机柜这个级别，一根电缆的粗细接近奶粉罐。若干根这样的电缆要同时接入一个机柜——物理上放不下。这是AI数据中心遇到的第一个「物理极限」问题。

液冷散热

一个300千瓦的机柜相当于一两百个电炉子同时在工作。热散不出去，服务器直接烧了。

华为数据中心的方案是液冷：冷水通过供水管进入服务器内部微管（像毛细血管一样），带走GPU热量后变成热水流出。液冷带走约95%的热量，剩余由风冷补充。热水汇集到热管理控制器（TMU），实时监测每路的温度、流量、速度和压力，动态调整水流。

TMU不仅控制热量交换，还做预测性维护。液冷系统最怕漏和堵——漏可能导致短路，堵则热散不出去，两者都会烧毁GPU。华为的思路是用AI模型训练运维数据，在微渗漏发生之前就预警。

电缆太粗进不去：物理极限的暴露

功率=电压×电流。功率要提高，要么加压要么加流。但电流越大，电缆就得越粗。到300千瓦机柜级别，电缆粗到奶粉罐的程度，一个机柜就那么大的空间，放不下。

解决方案方向是高压直流或800伏供电——电压高了，同样功率下电流就可以小，线缆就能细。但问题在于强电跟信息技术不一样：电网频率是50赫兹，你说改成800伏标准，意味着所有配电设备、开关、零部件都要适配新标准。这不是技术问题，是生态适配问题。

黄仁勋公开提过这个方向。华为也在做。双方都认可高压直流是方向，但路线是「多元架构并存」，不是一步到位。

从用电户到电网合伙人：构网能力

AI数据中心还有一个特殊的用电特征——GPU的「暴脾气」。

训练时成千上万张卡同时启动，负载瞬间拉满；训练阶段结束需要保存，负载又猛地掉下来。对电网来说，就是负载一会儿巨大，一会儿消失。到吉瓦级规模，这种波动足以影响区域电网稳定性。电网调度跟不上，可能导致发电机跳闸乃至大面积停电。

传统方案是靠UPS兜底。但华为提出了一个三级递进的能力框架：

电网适应：电网质量差一点，数据中心靠UPS也能正常工作。
电网支撑：电网发生局部故障时，数据中心不能随意断开，要在0.5到1秒内恢复连接，否则负载和电源失衡。
构网：数据中心反过来向电网主动提供无功功率——以前电网给你电，现在你帮电网稳定电压。从用户变成合伙人。

专业术语叫源网荷储——电源、电网、负荷、储能四端协同。华为的思路是通过这个框架把数据中心从「电老虎」改造成「稳压器」。

物理世界拖住了AI

回到开头的问题。AI怎么就成了能源之战？

这个问题再往深一层看，答案是物理世界和数字世界之间的碰撞。过去几十年互联网发展主要靠代码和软件，物理层阻力很小。但现在的AI是把水电、硅实实在在地烧成token。它的扩张速度必须服从电网建设速度、核电审批周期、变压器供货周期和铜的年产量。

到了2026年，AI前沿公司已经集体回到了能源和基建——那些看着最朴素、最不性感的产业。把数据中心搬到太空听着很科幻，但它恰恰反映了地球物理层面的硬约束。

「AI是物理世界拖住数字世界速度的一个典型案例。过去软件跑得比硬件快，现在硬件的物理极限写在了电线上——线太粗，进不去。」

—— 小Lin说

从算力到电力——AI数据中心功率密度的物理约束

功率密度暴涨：一个数量级级别的跳跃

找电：美国vs中国的结构性差异

用电：华为数据中心的实地解构

供电三步骤

液冷散热

电缆太粗进不去：物理极限的暴露

从用电户到电网合伙人：构网能力

物理世界拖住了AI

相关阅读

来源