商汤在第二十届中国Idc产业年度大典上分享的算电协同实践,说白了就是给智算中心这个“AI算力工厂”解决了用电的大难题——现在跑大模型的智算中心就是个巨型“电老虎”,不仅耗电多、电费贵,还经常因为电力供应不稳导致算力任务中断。商汤靠一套“能源大模型+智慧储能系统”的组合拳,让算力和电力精准配合,实现了“算随电用、电随算动”,既降了成本,又保了稳定,还贴合了“双碳”目标,下面就用最接地气的话把这事拆明白。
一、为啥智算中心非得搞“算电协同”?—— 电力已经成了AI发展的“卡脖子”难题
现在AI大模型越做越大,训练一个千亿参数的模型,需要成千上万的服务器连轴转,这些服务器堆在一起的智算中心,就是个实打实的“电老虎”。但行业里一直有两个绕不开的用电痛点,不解决的话,AI算力想发展根本无从谈起。
1. 数据“各玩各的”,电力浪费严重
智算中心里有三类关键数据:一是AI训练任务的数据,比如今天要跑视频生成模型、明天要做数据分析;二是服务器集群的负载数据,比如现在有多少服务器在干活、负载有多高;三是电力调度的数据,比如电网什么时候电价便宜、什么时候绿电(风电、光伏)多、电网能提供多少电力。
但现在这三类数据就像三个互不搭理的“部门”,电力系统不知道智算中心接下来要干啥、需要多少电,智算中心也不知道电网的电力情况,只能“瞎用电”。比如电网深夜电价低、绿电充足时,智算中心的算力任务可能正处于低谷,白白浪费了便宜电;而白天电网用电高峰、电价高时,智算中心又刚好要跑大模型,需要大量电力,不仅电费飙升,还可能因为电网供电不足导致任务中断。这种数据孤岛,让智算中心的电力使用效率大打折扣,钱花了不少,还没办好事。
2. 电力波动太坑,算力稳定没保障
大模型训练和推理时,算力负载就像坐过山车,可能上一秒还很平稳,下一秒因为要处理海量数据,负载突然飙升,瞬间需要巨量电力。电网的供电能力是相对固定的,根本跟不上这种“尖峰需求”,很容易导致服务器电压不稳甚至宕机,辛苦跑了几天的大模型训练任务可能直接归零,损失难以估量。
反过来,当算力任务进入低谷,服务器负载骤降,智算中心的电力需求也跟着减少,这时候电网的电力又没处用,造成资源闲置。而且现在国家在推“双碳”目标,智算中心作为高耗能场所,要是不能降低能耗、减少碳排放,后续发展也会受政策限制。
3. 全球都在抢赛道,这是国家层面的战略布局
不只是国内有这问题,全球科技强国都在盯着“算力-能源”一体化的布局。比如美国的大数据企业palantir推出了“chain Reaction”平台,把它定位成“美国人工智能基础设施的操作系统”,核心就是把算力调度、电力预测和芯片管理揉到一起,打造国家级的AI基础设施。商汤搞算电协同,不只是为了解决自己智算中心的运营问题,更是在国家战略层面,补齐我国AI基础设施的能源短板,避免在全球AI竞争中落后。
二、商汤怎么破解难题?—— 两大核心抓手,让算力和电力“心有灵犀”
商汤没有简单地给智算中心装个电表或者买个充电宝,而是从底层逻辑入手,打造了“能源大模型+智慧储能系统”的闭环,让算力和电力能双向适配,真正实现“算随电用、电随算动”。
1. 能源大模型:智算中心的“电力预言家+总调度”
商汤自研的能源大模型,就像给智算中心装了个超级聪明的大脑,既能精准预测未来的电力需求,又能实时指挥电力怎么用,核心靠三个独门绝技。
(1)把所有数据串起来,实现“任务-算力-功耗”精准对应
以前智算中心的任务、算力、功耗数据是割裂的,现在商汤通过独创的“能量块”数据模型和“算电功耗模型”,把这些数据全打通了。比如跑一个千亿参数的多模态大模型,能源大模型能精准算出需要启动多少台服务器、每台服务器每小时耗多少电、整个算力集群的总功耗是多少,甚至能对应到配电系统的每一条线路。
简单说,只要输入一个算力任务,能源大模型就能立刻算出“要花多少电”,就像你点外卖时,App能精准算出配送时间和费用一样,再也不用“盲猜”电力需求了。
(2)“能量块”加持,复杂场景也能精准预测
为了让预测更准,商汤把能源本身的数据(比如风电、光伏的发电效率)、用户的用能习惯(比如智算中心什么时候跑大任务)、能源平衡规则(比如电网的供电限制),和算力服务器的信息绑在一起,做成一个个“能量块”,作为分析的基础单元。
就像玩积木时,用不同的积木块能拼出不同造型,这些“能量块”能根据实际情况组合分析,再结合多轮训练优化的算法,哪怕遇到极端天气(比如阴天光伏发电少)、算力任务临时调整等复杂场景,能源大模型也能精准预测未来的能源需求。目前这个模型的能源需求预测准确率已经超过88%,决策准确率超93%,未来还能达到90%-95%的行业顶尖水平。
(3)高频次动态调度,让电力使用“利益最大化”
能源大模型不是一天只预测一次,而是每15分钟更新一次电力需求预测,每5分钟调整一次调度策略,相当于每分钟都在“精打细算”怎么用电。
它会综合考虑各种因素:比如电网的实时电价(低谷电便宜就多用电)、绿电比例(绿电多就优先用,贴合双碳)、储能系统的电量(储能满了就少充,储能空了就补)、电网的供电要求(电网高峰就少用点),然后自动生成最优的调度策略。比如电网深夜电价低、绿电足,就安排跑算力密集型任务;白天电网高峰,就把非紧急任务暂停,用储能系统的电支撑基础算力,真正让智算中心从“只能被动用电的刚性负荷”,变成“能灵活调节的电力资源”。
2. 联合宁德时代做智慧储能:智算中心的“超级充电宝”
光有预测和调度还不够,得有实际的电力储备来应对算力负载的突然波动,商汤找了宁德时代合作,打造了一个规模达17.888mw\/35.776mwh的储能系统,相当于给智算中心装了个超大号的“充电宝”,而且还是带智能大脑的。
(1)毫秒级响应,解决电力“瞬时缺口”
这个储能系统最厉害的地方是响应速度快,能在毫秒级内释放电力。比如智算中心的万卡级服务器集群突然启动,算力负载瞬间飙升,电网供电跟不上时,储能系统能立刻补上电,就像汽车爬坡时涡轮增压突然发力,保证服务器不会因为电力不足宕机,大模型训练任务也能顺利进行。
(2)分季节调模式,安全和效率两手抓
这个储能系统不是一成不变地充放电,而是会根据季节调整策略。在冬春秋季,智算中心的pUE(能耗效率指标,数值越低越节能)比较低,能耗压力小,就用传统的两充两放模式,简单又高效;到了夏季,气温高导致pUE升高、电力冗余少,就切换成能源大模型驱动的智能调度模式,精准控制充放电节奏,确保系统在安全红线内运行,不会因为过热出问题。
(3)还能参与电力交易,赚额外收益
这个储能系统不只是个“备胎”,还能帮智算中心赚钱。它可以参与电网的削峰填谷:电网用电高峰时,把储存的电卖给电网,赚差价;电网低谷时,再低价买电存起来,降低用电成本。同时还能参与电力市场交易,根据市场价格调整充放电策略,让智算中心从“用电方”变成“电力市场参与者”,多了一笔额外收入。
三、实际效果咋样?—— 上海临港AIdc成“样板间”,省钱又环保
商汤把这套算电协同方案落地在了上海临港的智算中心,这也是全国首个5A级智算中心,实际运营效果特别亮眼,成了行业里的绿色智算中心“样板间”。
1. 能耗大幅降低:整体pUE降到了1.267,比最初的设计值还低3%。pUE这个数越低,说明智算中心的能源利用效率越高,1.267的水平在行业里已经属于顶尖了,全年还节电超过1000万度,相当于少烧了几千吨煤。
2. 电费成本大减:年化电费成本节约了7%,对于动辄一年上亿电费的智算中心来说,这可是一笔不小的开支,直接降低了AI算力的运营成本。
3. 碳排放显着减少:一年下来碳减排3000吨,实实在在地响应了国家的“双碳”目标,让AI发展不再以高污染为代价。
4. 获得行业认可:这个智算中心还拿到了“2025年度中国Idc产业算电协同先锋奖”,证明商汤的这套方案已经得到了行业的认可,具备复制推广的价值。
四、这布局对整个AI产业有啥意义?
商汤的算电协同实践,不只是解决了自己智算中心的用电问题,更给整个AI产业带来了深远的影响。
首先,降低了全行业的算力运营成本。智算中心是AI产业的基础设施,电费是其最大的运营成本之一。商汤的方案能让智算中心的电力使用效率大幅提升,电费成本下降,整个AI产业的算力成本都会跟着降低,中小企业也能更轻松地用上高端AI算力。
其次,推动了AI产业的绿色发展。通过绿电利用、储能优化和能耗降低,让AI技术的发展和环境保护实现了双赢,避免AI成为新的高污染产业,符合未来产业发展的趋势。
最后,巩固了我国AI基础设施的优势。在全球都在布局“算力-能源”一体化的背景下,商汤提前掌握了核心技术,打造了可复制的算电协同范式,让我国的AI基础设施更自主、更高效,在全球AI竞争中占据了有利位置。
未来,随着能源大模型和储能系统的不断优化,商汤的这套方案还会在更多智算中心落地,让AI算力真正实现“高效、稳定、绿色”的发展,为整个AI产业的进步提供坚实的支撑。