版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 举报,一经查实,本站将立刻删除。如若转载,请注明出处:http://lixiangbaogao.com/_cong___honghaijuan_/6795.html
定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638
《维谛技术(Vertiv) :2024智算中心基础设施演进白皮书(31页).pdf》由会员分享,可在线阅读,更多相关《维谛技术(Vertiv) :2024智算中心基础设施演进白皮书(31页).pdf(31页珍藏版)》请在本站上搜索。 1、智算中心基础设施演进白皮书智算中心基础设施演进白皮书12序言近两年来,我们目睹了人工智能(AI)以惊人的速度发展和不断成熟,它正在改变我们的生活、工作和与技术交互的 方式,它将会彻底改变从医疗、金融到交通和娱乐等众多行业。以ChatGPT为代表的生成式人工智能(AIGC)因其显著的进步和广泛的应用范围而引起各行各业极大的关注。它能够生成与人类语言非常相似的文本,生成高清图片,视频,影片,甚至编程,颠覆了大众对人工智能(AI)的传统认知,吸引了普通大众乃至各个领域的专家的重点关注。随着人工智能(AI)应用变得越来越普遍和具有影响力,其对算力的需求也随之快速增长,人工智能(AI)业务负载也正在成为2、数据中心负载的重要组成部分,并且要求必须以集群的方式进行部署。因此,机柜的功率密度和数据中心的规模将大幅提升,给数据中心物理基础设施(包括供配电、制冷等)带来颠覆性的挑战。换句话说,这意味着人工智能(AI)将颠覆通算中心(传统数据中心)的设计和运营。为应对这些挑战,我们需要重新思考数据中心从IT层面到物理基础设施层面的规划和设计,从而建设出可以适应未来IT技术不断发展的具有弹性和可扩展性的智算中心(AIDC)。维谛技术作为英伟达(NVIDIA)官方认可的解决方案合作伙伴,很早就开始关注智算中心(AIDC)中的物理设施基础架构未来究竟会有哪些颠覆性的变革。回顾数据中心行业过去30年的发展,其基础3、设施层面的发展基本遵循一个 线性的功耗密度提升和智能化提升的模式,维谛技术在此过程中,一直以技术和质量来引领全球行业的发展。但是从2024年的年初开始,人工智能(AI)的发展进入类似于指数的增长曲线,从单个GPU的计算能力到集群的规模,从单机柜的功率密度到液冷的普及速度,似乎都被按下了加速键,数据中心行业正在经历一个自己的“寒武纪”。面对如此快速 变化的时代,市场和行业的信息和经验也都是碎片化的,国家之间、企业之间、个人之间也都存在着巨大的信息壁垒,产业生态和技术格局存在着重大的不确定性。作为数据中心行业的全球领先企业,维谛技术希望通过一种创新的形式,通过 收集市场上分散的经验和信息,整理出智4、算中心(AIDC)的机电系统架构演进趋势和挑战,从而做出一个系统性和中立性的分析和预测,希望通过提炼出的观点和意见,能够对数据中心行业的上下游起到一定的归纳和参考意义,对数据中心 行业的健康发展有一定的促进作用。而深知社(DeepKnowledge Community)作为中国具有号召力的国际化数据中心产业工程师社群,同样在这段时间里也在思考此类问题。经过与维谛技术深度沟通后,受维谛技术委托,由深知社对智算中心基础设施演进白皮书做系统的行业调研、分析、提炼以及白皮书撰写。因此,深知社于2024年4月-6月,对国内业已实施的智算中心、超算中心的近50位一线资深技术专家进行深度访谈和调研,并结合深5、知社海量的全球动态深度知识库,由DKI(DeepKnowledge Intelligence)研究员团队执笔,进行本次 白皮书的撰写。这本白皮书访谈、调研和写作的专家和工程师均以个人名义参与,使得这本白皮书能够最大程度以中立、系统和开放的角度,深度还原中国数据中心工程师群体对智算中心(AIDC)机电架构演进和发展的经验和判断。致谢感谢智算中心基础设施演进白皮书撰写组成员(排名不分先后):维 谛 技 术 编 委 组:顾 华、张 迪、雷 爱 民、赵 玉 山、王 腾 江、谭 红 丽、王 安 林、李 朝 辉、赵 呈 涛、王 超、郭 昊、刘东泽、李旭、韩会先、邹宇飞、姜峰等。深知社编委组:高昆、董卫卫、6、陈淼、王谋锐、高晓明等。以及在白皮书撰写过程中,通过深谈会、特约访谈等形式分享专业观点和经验的行业专家们:李典林、井汤博、何建、杨瑛洁、沈诚、王宁、夏忠谋、王强、陶志峰、唐虎、王洪涛、李巍、刘凯、肖军、李振江、刘阳迁、符晓、肖波、苏志勇、方黎达、师宇清、陈必成、丁海峰、叶飞、林密、张双华、于淼、杜华锐等。感谢你们的辛苦付出和努力,白皮书的每一个知识点的落实离不开你们的付出。希望智算中心基础设施演进白皮书可以为通算中心(传统数据中心)向智算中心(AIDC)的演进过渡中贡献出 一份力量!智算中心基础设施演进白皮书34序言的最后,必须要感谢维谛技术编委组的专家团队对深知社的调研和写作过程的大力支持,7、维谛技术的行业 大局观、产业生态观、技术发展观同样给此次白皮书的访谈对象和DKI研究员团队留下深刻的印象。希望各位数据中心同行在阅读完这本白皮书之后,对于AIDC的演进趋势有更多、更深、更系统的理解。因水平和 经验有限,这本白皮书一定会有一些不足甚至错误之处,如您有任何意见或疑问,也请随时与深知社取得联系(微信 公众号:DeepKnowledge,或官网网站),我们将认真听取您的反馈和意见,在未来不断提升。深知社编委组2024年8月目录一.智算中心的演进分析1.1 智能算力的发展情况概述 1.2 智算芯片结构演进1.3 智算用户侧诉求演进1.4 机柜功耗高密度化演进1.5 静态负载向动态负载演8、进二.智算中心选址与规划 2.1 智算中心选址2.2 智算中心建筑形式 2.3 智算中心建筑布局 2.4 智算中心房间功能需求 2.5 智算中心装饰装修需求 2.6 已有建筑改造为智算中心 三.智算中心电气链路架构挑战及演进趋势3.1 智算中心电气链路的挑战3.1.1 电力能源接入挑战3.1.2 配电与IT机房的面积比挑战3.1.3 电能利用率挑战3.1.4 能源利用效率(PUE)挑战3.1.5 服务器电源形式挑战3.1.6 智算负载分级供电的挑战3.1.7 末端配电方式挑战3.1.8 负载动态冲击挑战3.1.9 环境温度突变挑战3.2 智算中心供配电系统的演进趋势 “智算电能管理链”3.2.9、1 电力能源系统向“算电协同”演进3.2.2 简化供电系统架构演进3.2.3 智算负载分级供电演进3.2.4 预制电力模组演进3.2.5 UPS向MW级,超高效及高密化演进3.2.6 锂进铅退/储备一体演进66 88911121213 13 14 14 15161616161717171818191919192023232425智算中心基础设施演进白皮书56一.智算中心的演进分析过去的十几年,是通算中心(传统数据中心)(见附录名词解释)快速发展的阶段,主要以云计算为主。随着生成式 人工智能(AIDC)(见附录名词解释)的横空出世,人工智能(AI)(见附录名词解释)在医疗、金融、制造业、零售业和10、交通 运输等领域产生了广泛的应用需求,通算中心(传统数据中心)已经逐渐无法满足日益增长的计算需求,智算中心(AIDC)(见附录名词解释)应运而生,它支持大规模的数据处理、机器学习、深度学习和其他智能算法的运算需求,得益于人工 智能的革命性发展,智算中心的规模和处理能力正在呈指数级增长,以满足日益增长的算力需求。智算中心已成为通算 中心(传统数据中心)升级发展的必然趋势。本章节结合目前智能算力的发展情况,对智算中心(AIDC)在芯片结构演进、用户侧诉求演进、高密度化演进、负载 特性演进等进行分析和总结,作为规划选址、电力系统、制冷系统及预制化等后续章节的依据和基础。1.1 智能算力的发展情况概述11、算力发展:随着数字经济时代的到来,数据成为新的生产资料,而算力则成为新的生产力。在万物互联的背景下,数据量爆炸式增长,对算力的需求达到前所未有的高度。从城市到家庭到个人,从政府到行业到企业,以及新能源汽车智能化操控、短视频内容推荐、电商平台个性化推荐等,每个生活和生产场景均离不开算力对信息的处理,算力已成为社会发展的重要动能。可以预见,算力将无处不在,算力服务也将像水、电一样,成为一种社会基础设施。算力分类:按照系统构成、技术特征和应用领域的差异,算力可分为三类:通用算力、超算算力和智能算力(见附录 名词解释)。由于超算中心属于高度定制化的算力中心,不在本白皮书的讨论范围内。本白皮书将重点讨论12、通用算力中心(简称 通算中心,即传统数据中心)向人工智能(AI)算力中心(简称智算中心)的演进。智算业务:智算业务在应用中包括两个环节:训练和推理(见附录名词解释)。智算业务发展趋势:根据IDC的统计数据(见图1),2022年部署的智算算力里,训练算力占比为41.5%,推理算力 占比达到58.5%;预计到2026年,推理算力的占比将会提升到62.2%,训练算力降低到37.8%。这种趋势也符合智算被 广泛应用的科学的比例变化,而随着推理算力的普及,生成式人工智能(AIGC)的应用将引起范式革命(见附录名词 解释)(见图2)。目录3.2.7 末端电压等级提升及全直流系统演进3.2.8 SST的前沿13、应用探索 3.2.9 包间白地板交付方式的演进 3.2.10 融合末端配电方式的演进 3.3 新能源、储能在智算中心的应用分析 3.3.1 新能源在智算中心应用是必然趋势 3.3.2 新能源发电在智算中心消纳仍面临诸多挑战 3.3.3 储能系统在智算中心应用的多重价值 3.4 智算电能管理链 四.智算中心制冷系统架构 4.1 制冷技术发展趋势 4.2 制冷系统架构的分类及方案 4.2.1 芯片侧 4.2.2 机柜侧/末端空调侧(风冷技术)4.2.3 机柜侧/末端空调侧(液冷技术)4.2.4 冷源侧 4.3 制冷技术应用评估 4.4 智算中心制冷应对策略 五.智算中心预制模块化技术的应用分析 514、.1 智算中心预制模块化技术发展趋势 5.2 电气预制模块化趋势 5.3 制冷预制模块化趋势 5.4 智算中心预制模块化趋势 5.5 预制模块化技术的应用与挑战 六.总结与展望 七.附录 7.1 名词解释 7.2 主要作者介绍 7.3 版权声明 2627 2828 30 30 31 3233343435 36 3741 4243 45 4646 474950 51525454 56 57 智算中心基础设施演进白皮书78其中智能算力规模达到70EFLOPS。“东数西算”干线光缆规划已超过180条,骨干网互联带宽扩容到40T,全国算力枢纽节点时延20ms时延圈已经覆盖全国主要城市。1.2 智算芯片15、结构演进智算算力(智算中心)和通用算力(传统数据中心)在服务器芯片结构上存在本质的差异。通用算力芯片架构相对单一,主要以CPU为算力核心,基于CPU和云存储集群提供的相关云服务,通常由多个物理 服务器组成,通过网络连接形成一个虚拟化的计算环境。智算算力则通常采用芯片异构计算架构,结合CPU、GPU、NPU、TPU等(见附录名词解释)多种芯片,形成高并发的 分布式计算系统,应用于神经网络模型的训练及推理等。除算力芯片外,智算中心的存储芯片也存在差异化的需求,例如更大的DRAM和NAND容量,以及存算一体技术的 应用,以解决冯诺依曼架构中的存储墙问题等。从芯片结构演进来看,通算中心(传统数据中心)16、侧重于通用计算任务的性价比和灵活性,而智算中心注重人工智能(AI)类型的特定计算需求及运算效率,并要求具有强大的图形处理功能,需要制定人工智能(AI)算力硬件和存储解决 方案,以满足其人工智能(AI)高性能计算需求。1.3 智算用户侧诉求演进通用算力(传统数据中心)的用户侧诉求经过长期不断的发展和梳理,已逐渐趋于成熟和稳定,而智算中心用户侧 诉求则主要是基于算力业务开展带来的诸多挑战。通算中心最初的用户诉求主要来自于一些特定的应用,诸如:电子邮件、社交媒体和员工工资发放等。后来随着云 计算的快速发展,越来越多的关键应用迁移到云端,数据中心建设的规模也越来越大,通算中心对时延、带宽、可用性 以及17、安全性等有了更高的要求。为了满足更高的标准和要求,通算中心通常选择引入双路市电,采用柴油发电机作为市电中断后的应急电源,并配备不间断电源UPS,从而确保系统的持续运行,随着“碳中和、碳达峰”的目标制定,通算中心 开始对极致PUE、降低数据中心的总拥有成本进行持续要求。智算中心的用户诉求则来自于智算训练业务。为确保大模型训练的效率和成本最优,智算训练业务需要建立高度集中化的GPU集群。这是因为,基于GPU的分布式工作原理,如果需要在减少训练时间的同时降低训练的成本,那么,必须在更小的物理空间内部署更多的GPU服务器,从而突破分布式计算因带宽和传输距离产生的运算瓶颈,提高集群算效,因此,智算训练业18、务需要建立高度集中化的GPU集群。100%80%60%40%20%0内容数量2020202120222023202420252026训练推理内容制作模式专业制作PGC用户制作UGCAI辅助用户制作AIUGCAIGC 图1:云端推理占比逐步提升 图2:生成式人工智能AIGC引发范式革命数据来源:IDC,中信建投,腾讯研究院市场表现:根据PrecedenceResearch市场预测(见图3),从2023年至2030年,全球人工智能(AI)市场有望实现 超过35%的复合增长率。图3:人工智能(AI)全球市场规模及预测(单位:亿元人民币)+38.2%6267862411879163772259831219、094314059686826511145542021 2022 20232024E2025E 2026E 2027E2028E2029E2030E数据来源:PrecedenceResearch智算中心国内外市场发展情况y中国:云计算、大数据以及物联网等企业在智算中心逐步摸索和推广应用阶段y美国:凭借在云计算、大数据等先进技术上的优势和研发能力,在智算中心技术的创新和应用方面取得显著成就y欧洲:如英国、法国和德国,基于机器翻译、自动驾驶等研发需求,为各类企业提供高效稳定的智算中心服务y新兴市场:如马来西亚、印度、巴西等国家在积极布局智算中心产业近年来,我国智算产业随着算力产业的发展快速增长,政20、府鼓励企业进行智算中心技术研发与服务能力的提升,智算中心应用与产业化成果显著。2024年政府工作报告中明确提出:适度超前建设数字基础设施,加快形成全国一体化算力体系,培育算力产业生态。数据显示:截至2023年底,我国算力总规模达到230EFLOPS,即每秒230百亿亿次浮点运算,智算中心基础设施演进白皮书910图5:不同规格服务器架构对应参数表风冷机柜y国产GPU,以华为910B为例,单机柜部署2台风冷智算服务器,功耗约11.2kWy英伟达(NVIDIA)以HGX服务器为例,HGX是NVIDIA的高性能服务器,通常一台机器包含8个或4个GPU,以8个H100为例,单台服务器功耗约10.2kW,21、若选用B200芯片,单台服务器设计功耗14.3kW。在智算中心的 规划中,通常会考虑到IB线缆等综合成本,单机柜部署2台HGX风冷智算服务器,含上IB交换机等,单机柜功耗高达24kW左右液冷机柜y国产GPU,单机柜8台液冷智算服务器,总功耗约42.4kW。y英伟达(NVIDIA)GPU,从NVL32机柜到NVL72机柜,单机柜部署4台服务器至9台服务器,GPU数量从32颗到72颗,总功耗也从44kW(为推测的数据)增加到120kW。因此,单机柜功耗从通算中心(传统数据中心)的46KW的逐渐增加至智算中心(AIDC)的2040kW,未来逐步 发展至40120kW甚至还要更高,智算中心机柜呈现高密22、度化趋势。这将导致智算中心在IT负载和市电引入规模上大大高于 通算中心,也意味着将消耗更多的能源,同时也对资源产生众多新的需求,这些内容在接下来的章节中将会进行详细描述。在功能方面,智算用户更注重数据的智能处理和应用,提供个性化的服务;在硬件上,智算用户注重更多地使用GPU专用芯片;在软件上,智算用户注重更加高效的分配计算任务;在管理和运维方面,智算用户要求自动化程度更高,更加 注重资源的挖潜和最优利用。基于以上智算中心用户在高度集中化的GPU集群、功能、硬件、软件以及管理和运维方面的诉求,智算中心面临 因此带来的诸多变革和挑战,这些挑战和对应的解决方案,在接下来的章节中将会进行详细描述。1.23、4 机柜功耗高密度化演进如以上章节所述,智算训练需要建立高度集中化的GPU集群,而智算中心GPU芯片的算力在不断提升,目前H100/H200/H800等芯片TDP设计功耗已达700W(见图4),2024年3月GTC大会最新发布的B200达1000W,GB200已达到2700kW功耗。伴随着智算中心芯片功耗的提升,其自身的散热功耗也在不断攀升,智算中心中单机柜的热密度大幅度的快速提升,因此,智算中心将面临单机柜功耗高密化的挑战。通常人工智能(AI)服务器(见图5)由8卡GPU或NPU模组构成,基于上述芯片的功耗数值,可以确定每台人工智能(AI)服务器的功耗在5kW10kW。进一步由服务器组成整体24、机柜时,机柜的功率密度将达到40kW以上。以英伟达(NVIDIA)为例,DGX架构8卡GPU H100服务器额定功耗为10.2kW,安装4台服务器的风冷机柜功耗为42kW。新一代的GB200架构中,NVL36机柜功率密度为72kW,NVL72液冷机柜功率密度则为120kW。图4:不同芯片架构对应参数表架构A100H100H200GH200B100B200Full B200GB200AmpereHopperBlackwell显存大小80GB80GB141GB96/144GB180/192GB180/192GB192GB384GB显存宽带2TB/s3.35TB/s4.8TB/s4/4.9TB/s825、TB/s8TB/s8TB/s16TB/sFP16稠密算力(FLOPS)312T1P1P1P1.75P2.25P2.5P5PINT8稠密算力(OPS)624T2P2P2P3.5P4.5P5P10PFP8稠密算力(FLOPS)X2P2P2P3.5P4.5P5P10PFP6稠密算力(FLOPS)XXXX3.5P4.5P5P10PFP4稠密算力(FLOPS)XXXX7P9P10P20PNVLink宽带600GB/s900GB/s900GB/s900GB/s1.8TB/s1.8TB/s1.8TB/s3.6TB/s功耗400W700W700W1000W700W1000W1200W2700W备注1个Die126、个Die1个Die1个Grace CPU1个H200 CPU2个Die2个Die2个Die1个Grace CPU2个Blackwell CPU架构HGX A100HGX H100HGX H200HGX B100HGX B2008 x A100 SXM8 x H100 SXM8 x H200 SXM8 x B100 SXM8 x B200 SXMAmpereHopperBlackwell显存大小640GB1.1TB1.1TB1.44/1.5TB1.44/1.5TB显存宽带8 x 2TB/s8 x3.35TB/s8 x 4.8TB/s8 x 8TB/s8 x 8TB/sFP16稠密算力(FLOPS27、)2.4P8P8P14P18PINT8稠密算力(OPS)4.8P16P16P28P36PFP8稠密算力(FLOPS)X16P16P28P36PFP6稠密算力(FLOPS)XXX28P36PFP4稠密算力(FLOPS)XXX56P72PGPU-to-GPU宽带600GB/s900GB/s900GB/s1.8TB/s1.8TB/sNVLink宽带4.8TB/s7.2TB/s7.2TB/s14.4TB/s14.4TB/s以太网网络200Gb/s400Gb/s+200Gb/s400Gb/s+200Gb/s2 x 400Gb/s2 x 400Gb/sIB网络8 x 200Gb/s8 x 400Gb/s828、 x 400Gb/s8 x 400Gb/s8 x 400Gb/sGPU功耗3.2kW5.6kW5.6kW5.6kW8kW总功耗6.5kW10.2kW10.2kW10.2kW14.3kW备注ConnectX-6 NICConnectX-7 NICConnectX-7 NICBlueField-3 DPUConnectX-7 NICBlueField-3 DPUConnectX-7 NIC智算中心基础设施演进白皮书11121.5 静态负载向动态负载演进通算中心(传统数据中心)上线运行以后,负载相对比较平稳,很少有极端情况负载波峰或谷底出现,而智算中心的 负载运行特点是不断进行训练任务来进行高速运算29、,当它开始训练任务时,负载将会迅速上升到比较高的功耗值,甚至会达到负载的极限值,而等到这次训练任务结束以后,它的负载又会迅速下降,降到最低值。由此可以得出结论,智算中心的负载波动情况非常大,呈现出新的动态负载特性(见图6)。新的动态负载特性主要表现为周期性、大幅度、并发性、瞬时冲击等,这种特性对于智算中心的配电和制冷都是一个很大的挑战。y周期性:智算负载呈现周期性波动,波动频率从分钟级到小时级不等y大幅度:智算负载功耗波动幅度可能超过额定功耗的80%,即智算中心的负载功耗可能从10%快速突变至80%,甚至100%y并发性:人工智能(AI)大模型具有并发运算的特点,故整体集群性总功耗呈现出动态快30、速变化y瞬时冲击:某些算力模型可能出现400us50ms左右的负载冲击,幅度可能达到额定负载功耗的150%,它取决于POD运算模型及软件算法图6:典型AI算力集群负载动态功耗曲线图(kW)16001400120010008006004002000 t(s)Load profileStep to 150%load10%idle load100%base line load30 sec period综上所述,智算中心的演进从芯片结构演进、用户侧诉求演进、高密度化演进以及负载特性演进,都将对通算中心(传统数据中心)的基础设施(电气、制冷等)带来颠覆性的变革,对智算中心的基础设施(电气、制冷等)解决方31、案也 提出新的挑战。接下来的章节,将分别从选址规划、电气架构和制冷系统架构等架构维度,探讨如何应对智算中心的新挑战以及演进趋势。二.智算中心选址与规划通算中心(传统数据中心)的选址与规划经过多年的发展已比较完善、成熟和标准化,智算中心选址与规划和通算 中心相比有哪些特殊差异?本章节将从智算中心选址、建筑形式、建筑布局、房间功能、装饰装修以及已有建筑的改造 这几个方面进行考量。2.1 智算中心选址通算中心(传统数据中心)的选址通常选在经济发达的城市及周边区域,靠近终端客户,可以有效降低网络时延。近年来,在国内政策的不断调节下,逐渐推动数据中心选址到气候更加适宜、土地更加充沛且电价更加便宜的地区。32、这是由于数据中心的选址与电力成本之间紧密相关,东部核心城市火电的发电和传输成本较高,导致总体能源成本 也相对较高,而西部偏远地区由于发电量远远大于用电量,且可再生能源富集,电价相对较低,气候条件自然冷源更丰富且土地更充足。智算中心的选址会趋向于靠近终端客户的核心城市还是资源丰富的偏远地区?近年来,人们发现电网传输电能的成本要比传输信息的成本还要高,运电不如运信息更高效,因此,大型数据中心 选址更趋向于在电能充沛且价低的内蒙、宁夏、甘肃等西部地区。目前一些经济发达的核心城市由于产业密集、科技创新活跃,对智算中心的需求较为旺盛。然而,这些地区由于存在严格的能耗指标,导致算力部署面临困难。因此,在智33、算中心选址初期,考虑到交通便利、人才招聘、运维便捷性等因素,通常选择靠近核心城市或其周边的 区域更有利。然而,随着智算中心电力需求的不断增长,电力供应压力逐渐加大,同时也为了逐步响应国家政策,智算中心的选址将会转向偏远但可再生能源富集的地区。这些偏远地区在能源、电价、气候和政策方面的优势,可以降低智算中心的建设和运营成本,提高智算中心的市场竞争力。另外,智算中心选址的决策,并非只关注电价,还需全面考量整体资源设施(如水资源是否充沛)、政策环境、市场 需求等多重因素,以寻找经济活动丰富与能源费用的平衡点。同时,还要关注人才资源、运维便捷性、团队成熟度等关键因素,以确保智算中心能够顺利落地并发挥最34、大效益。特别对于服务科研、教育、医疗等公共领域的智算中心,在选址时还需特别关注周边环境要求和建造要求,以确保其能够安全、稳定地服务于社会。对于分布式智算中心(通常用于推理),因其需要通过网络进行紧密协同和数据传输,所以网络资源也是其选址考量的主要因素之一。智算中心基础设施演进白皮书1314综上所述,智算中心的选址,首先优先考虑新能源资源丰富、能源利用条件良好、网络资源良好,并接近核心城市或其周边的区域的地区,其次综合考量整体资源设施、政策环境、市场需求等多重因素,最后核算经济与能源费用的平衡点。2.2 智算中心建筑形式近年来,相对于传统的多层建筑,出现了一种大平层建筑形式,这种建筑方式可以通过35、预制模块化实现快速交付,并充分利用自然冷源提高制冷效率。典型的通算中心(传统数据中心)为云厂商和互联网公司规划的云数据中心,这些通算中心重点关注交付周期、运营成本和可扩展性,因此大平层建筑方式在一些中大型数据中心园区中得以广泛应用。智算中心的建筑形式优先选用大平层还是多层建筑呢?智算中心在规划时需要更多的考虑网络组网传输的要求,对于面向训练业务的智算中心,对网络方面有着更高的 要求,必须充分考虑支撑网络。和通算中心(传统数据中心)相比,智算中心的网络带宽收敛比低至1:1,存在大量的异构技术核心,东西向通信流量更大,对抖动、可用性、高吞吐、低时延数据访问的要求更高。尽管通信的时延主要来自于转发过36、程,与物理距离的关联度相对较低,但因为大平层建筑形式的容积率低,设备布置相对分散,可能导致不同区域内的设备间通信时延受到物理距离的影响,造成无法满足智算中心对高速网络的要求。同样,基于智算中心网络组网传输的要求,智算中心在集群规划时,需要在智算服务器和交换机之间采用尽可能短的传输距离,此需求可在多层建筑中通过相邻楼层间竖向打通的方式得以满足,因此,多层建筑可以更好地满足网络带宽、抖动、可用性、高吞吐、低时延数据访问的高标准要求,更适合大规模智算中心集群的部署。2.3 智算中心建筑布局通算中心(传统数据中心)一直追求通过尽可能的降低制冷用电的CLF(Cooling Load Factor),进而37、提高能源效率PUE(Power Usage Effectiveness),从而提高可用的IT容量。通常可通过改善房间布局来提升场地利用率和降低配电损耗,实现可以安装更多的服务器。而智算中心则追求高算力和高算效,通过优化网络架构和提升服务器ITUE(IT设备利用效率)和ITEE(IT设备能效)。如何通过优化建筑布局从而提高智算中心算力和算效?优化建筑布局对提高智算中心算力和算效有很大的作用。首先,集群组网及传输的布局需更加紧凑。如以上章节所述,智算中心对网络组网和传输有很高的要求,因此智算 中心将打破通算中心(传统数据中心)的建筑层高、承重、管线穿楼层等限制,从而做到服务器集群组网及传输的布局 38、更加紧凑。另外,当采取不同路由回路以保障网络弹性时,需要注意不同路由的距离和物理隔离,比如穿越楼板实现垂直网络规划和部署,目前已成为智算中心应用的趋势。当然,这样做法的同时必须满足当地消防要求,并采取相应的漏水 封堵措施。另外,在层高和承重方面,智算中心也提出了相应的提升要求。层高方面,采用风冷或风液混合制冷方案的智算中心,由于智算中心的功率密度更高,单位空间内需要部署更多的 管线,因此对层高提出更高要求,通常智算中心的层高普遍在5.06.5米。承重方面,TIA-942-C标准对Rated-3和Rated-4级对数据中心楼层活载荷的要求是不低于12KN/M,而对于智算 中心来说,对楼层活载荷的39、要求可能会更高,例如为部署液冷,楼层活载荷的要求达到18KN/M甚至更高。2.4 智算中心房间功能需求通算中心(传统数据中心)对房间功能需求,一般会设置主机房、辅助区、支持区、行政管理区等功能空间,并考虑 员工及客户派驻人员的休息、餐饮住宿、办公和会议室等需求。而对于智算中心,则更注重功率密度、制冷需求、配电支持、网络配置、物理隔离和多功能需求等方面的功能规划。智算中心在房间功能划分上有哪些特殊需求?如以上章节所述,智算中心机柜呈现高密度化趋势,因此智算中心的制冷和配电支持区域的需求也会相应增大,同样,辅助区、支持区、行政管理区、运维操作和仓库等区域的面积根据需求相应的增加。因此,智算中心,特40、别是面向训练型业务类型的智算中心,相同的服务器数量需要更多的网络交换机和直连铜缆(DAC)以及有源光缆(AOC),因此,在规划设备工艺时,应充分考虑机柜的宽度、配线架以及光缆、电缆走线架的要求,并以此为依据对房间功能进行划分。另外,智算中心应预留合理储存备品备件的房间,规划出ICT设备的安装和调试的空间,保证房间内环境满足储存和测试正常运行的要求。同时,房间规划上可能会设置更多的功能区,以展示智算中心的技术先进性和创新成果,比如互动体验区、展示区和休息区等。2.5 智算中心装饰装修需求智算中心在装修的维护结构,节能措施,地板高度,装修材料,防止水溢渗透等方面面临新的挑战。随着通算中心 向着智算41、中心的演进,智算中心的装饰装修风格也在不断演变,并与其功能和特性更加紧密相关。智算中心基础设施演进白皮书1516智算中心的装饰装修系统,除为满足智算中心适当的通风、散热和防尘而设计的功能需求外,更加注重强化结构安全性、选用防水耐腐蚀材料、优化安装维护便利性,以及更加注重环保节能。以典型的智算中心风液混合方案为例,它在原有精密空调的基础上,增加服务器内冷板、液体制冷剂、分液管、液冷 分配单元(CDU)、泵、过滤和净化装置、控制系统等,所以在风液混合方案内,为保障地板下液冷管路的维护,地板高度需根据管路和泵阀尺寸确定,建议不低于1m,并设置漏液检测和压力感应装置。当然,管路和泵阀也可以放在机柜通道42、 顶部,降低地板高度要求,也更有利于维护检修,同时避免影响下送风系统的通风效果。另外,在智算中心装修过程中,需要面对复杂的管线布局,做好安全防护措施,严格控制环境参数,以及采用节能 材料和系统,满足绿色环保标准,减少对环境的负面影响,降低建造和装修材料的碳足迹。2.6 已有建筑改造为智算中心通算中心(传统数据中心)向智算中心的演进,除新建的方式外,还可通过对原有建筑进行改造的方式升级为智算 中心。如何改造已有的通算建筑以便适用于智算中心,是一个极具意义的课题,需根据业务系统的规模、现有土地、建筑条件、交付周期及商务条件等多种因素采取相应策略。首先,改造前要充分考虑,改造后投入运营可能因噪音、制43、冷等影响因素带来的挑战。面向训练型业务负载改造时,因智算服务器(风冷)风扇速度的提高,噪音将成为影响运维人员工作环境的因素之一。因为任务加载时噪音可能超过 90分贝,现场人员可能面临长期在高噪因工况下的职业伤害风险,改造时宜考虑墙壁安装吸音材料进行部分降噪,并在 运营后为运维人员配备耳塞等装备。其次,对于面向推理业务负载的智算中心,由于其规模相对较小,则可以考虑对部署在已有的数据中心内改造,或对边缘数据中心改造。另外,改造方案还需要考虑通过加固和扩建等方式以满足智算中心承重的要求。在改造过程中,冷板液冷系统的改动比浸没式液冷的改动较小。浸没液冷系统的加固改造成本较高,加固成本甚至 可能会超过新44、建成本。总的来说,智算中心的选址和规划是一个多方面考量的过程,需要精心设计策划,以确保智算中心的高效交付使用。上述章节内容中,建筑形式和布局是否便于维护和扩展,房间功能是否按技术操作需求划分明确,装修是否兼顾安全和实用性,对现有建筑的改造是否可以提升结构和系统以满足智算中心的特定要求,这些综合考量确保智算中心能够 适应技术更新,实现长期的稳定运行和可持续发展。三.智算中心电气链路架构挑战及演进趋势接下来,本章节将从系统层面深入探讨智算中心(AIDC)与通算中心(传统数据中心)在电力系统架构方面的差异。随着人工智能(AI)技术对计算资源和电力消耗的需求不断增长,智算中心对电力系统的稳定性、可靠性45、和效率提出了更高的要求。智算中心正颠覆性的改变通算中心的电力系统架构,这些影响使得智算中心很难再遵循通算中心之前总结的规律和标准,特别对于超前建设的人工智能(AI)数字基础设施提出更高的挑战。3.1 智算中心电气链路的挑战3.1.1 电力能源接入挑战在通算中心时代(传统数据中心),以某大厂 一栋数据机房楼为例,约2万台服务器,1020多台机柜,单机柜功耗在12kW以上,组成IT总容量约12.9MW的一栋标准数据机房楼,其电力容量大概在20MVA左右,通常由市政公共变电站 引来四路10kV电源,多数情况下会分期建设,因此对区域电网的整体压力不是很大。在智算中心时代,以英伟达(NVIDIA)H1046、0的DGX架构8卡GPU服务器为例,部署一个1024台服务器的万卡算力 集群,单机柜同样按12kW考虑,加上制冷等辅助用电,需要1520MVA的电力容量。那么一栋10万卡的算力集群建筑,单栋建筑的用电规模则达到100兆瓦以上,因此,过去市政公共变电站的10kV电源输出间隔很难满足百兆瓦以上所需 线路的数量,并且多路10kV长距离输电线路的经济性不高,需要自建110kV或接入更高电压等级的电网。随着智算芯片密度的持续增加,园区的用电规模可以达到200MW,甚至攀升至300500MW的水平,因此需要接入220kV甚至更高电压等级的电网,这对区域电网的压力呈指数级上升。因此,相比于通算中心,智算中心47、的拓展瓶颈已经从机柜数量的物理空间问题,转变为能源供给问题,智算中心园区的算力容量上限不再是芯片算力的上限,而是发电厂和电网容量的上限。在满足算力容量需求下,如何匹配电力能源接入,并实现绿色发展,成为智算中心面临的重大挑战。为解决这样的 问题,与智算中心基础设施需求配套的电力能源系统应运而生。3.1.2 配电与IT机房的面积比挑战随着智算中心机柜呈现高密度化趋势,给数据机房的供配电整体占地空间带来巨大挑战。根据通算中心(传统数据中心)的规划建设经验,单机柜功耗在2.5kW-5kW的情况下,供配电系统占地面积通常为IT智算中心基础设施演进白皮书1718设备占地面积的1/4左右;当单机柜功耗提升到48、8kW左右时,供配电系统占地面积将达到IT设备占地面积的1/2左右;当单机柜密度提升到16kW,供配电系统占地面积将与IT设备占地面积几乎相同。因此,随着智算中心的单机柜功率密度的快速提升,变配电室面积必然随之大幅度增加,智算中心的建设方案需要 考虑供电系统更多的占地面积。3.1.3 电能利用率挑战在通算中心(传统数据中心)时代,为追求数据中心运营环境的极高可用性,2N配电架构是最常见的供电设计方案,这种架构以其建设简单、维护便捷的优势得到业内广泛认可,占据中国数据中心整体规划设计的主流。但随着智算中心对算力需求的不断提升,以及对成本效益和空间效率的追求,供电效率低成为传统2N架构面临的 主要49、问题,因此,简化配电架构设计以提升系统利用率、降低占地面积、最大程度地提升算力成为智算中心一大挑战。3.1.4 能源利用效率(PUE)挑战在智算中心运行着大量高效GPU服务器和存储设备,这些IT设备自身需要大量的电力来支持其运行,此外,为保持 这些IT设备的稳定运行和数据处理的高效性,智算中心还需要匹配制冷系统,这些配套的制冷系统同样需要增加智算中心的能源消耗。庞大的算力规模部署,意味着消耗更多的能源,智算中心也正在成为中国电力系统的最大变量之一。作为能源消耗 大户,智算中心的能源利用效率(PUE)降低需求尤为迫切。能源利用效率(PUE)的降低意味着用更少的电力完成更多的任务,也意味着相同的规50、模,可以用更少的能源实现,同时也满足节能降碳需求。因此,随着智算中心规模的不断提升,对智算中心能源利用效率(PUE)将会提出更高的要求。3.1.5 服务器电源形式挑战对数据中心行业而言,服务器电源是数据中心供电系统建设的核心。在通算中心(传统数据中心)时代,通用CPU服务器电源功耗较小,通常在300700瓦之间,常见电源冗余技术为1+1冗余形式。随着人工智能(AI)算力GPU芯片功耗的提升,先进人工智能(AI)服务器功耗持续升级。以英伟达(NVIDIA)服务器的电源结构为例,英伟达(NVIDIA)DGXH100服务器,8U机架安装,输入电压:200-240V交流电,电源规格:最大10.2kW,51、200-240V3300W,16A,50-60Hz。DGXH100服务器电源架构是N+2的电源冗余的架构(见图7),正常需要配置6个IECC20接口的开关电源。如果采用传统的末端配电架构,机柜内配置左右共两个PDU电源,左右PDU电源分别接三个开关电源,当其中一路PDU电源中断,服务器仅剩余三个电源工作,DGXH100服务器则会宕机。因此,末端配电需要配置三条PDU电源,全链路三路独立电源是较为合理和推荐的方案。另外,不同厂家的算力服务器电源存在的兼容性问题,也是对智算中心基础设施建设提出的挑战。图7:N+2电源配置示意图3.1.6 智算负载分级供电的挑战为确保通算中心(传统数据中心)负载的连52、续性供电,通算中心通常采用来自两个不同变电站的两路市电作为电源,采用柴油发电机作为本项目的备用电源。当某路市电故障,另一路市电能迅速接入,当两路市电完全中断时,柴油发电机自动启动供电,同时配置不间断电源UPS和电池,确保柴发启动前的电力系统不会中断。和通算中心不同,智算中心的供电连续性要求已发生变化,并不是所有负载都需要不间断供电。智算中心的推理业务负载属于关键型负载,如推理、存储与云服务等仍需配置后备电源,而训练业务则属于可间断负载。当发生故障或断电,训练业务负载将模型保存为“检查点”,电源恢复后可以从中断点继续运行,因此,智算中心的训练业务负载对业务连续性,容错性和可用性的诉求也发生改变。53、相较于昂贵的服务器成本,平衡不间断电源供电的成本与服务器因断电损坏的 潜在风险是智算中心面临的新挑战。3.1.7 末端配电方式挑战随着智算集群规模增长,单机柜容量已攀升至上百千瓦。2024年3月英伟达(NVIDIA)发布DGXNVL72机柜,由36块GB200AI加速卡(由72块GPU和32块CPU)组成,使得单机柜功耗达到120kW。智算中心基础设施演进白皮书1920更高的机柜功耗意味着更大容量的电力需求,末端配电设施如何支撑大容量机柜供电?这些变化将对末端配电的 物理基础设施提出新的挑战。3.1.8 负载动态冲击挑战如以上所述,智算中心负载特性呈现出周期性、大幅度、并发性、瞬时冲击等动态负54、载特性,智算中心负载的这些动态特性将对智算中心供配电链路,如油机、不间断电源、服务电源等关键环节提出新的挑战。智算中心负载特性分析详见“1.5 静态负载向动态负载演进”章节。3.1.9 环境温度突变挑战在通算时代(传统数据中心),由于其服务器密度较低,散热需求相对较小,因此制冷系统通常可以较为轻松地维持稳定的温度环境,因此温度变化速率相对较慢,电气设备在这样的环境温度变化下能够保持其性能稳定。在智算中心时代,由于服务器负载功率密度高,且呈现出新的动态负载特性,当智算服务器高负载运行且动态快速 增加时,会快速产生大量的热量,因此其散热需求更大,制冷系统需要快速响应,但是制冷系统需要一定的反应时间55、,并且制冷系统很难在短时内达到其效率极限,这将导致周围环境温度快速上升。紧接着,制冷系统为维持温度稳定,会 全功率送冷,这又会导致周围环境温度快速下降。这种环境温度的快速变化会给电气元器件带来更大的热应力,可能 导致电子元器件的性能发生明显变化,影响设备的绝缘性能,降低电子元器件的可靠性,比如降低器件的灵敏度、需要 降容使用等,增加故障事件发生的概率。3.2 智算中心供配电系统的演进趋势 “智算电能管理链”如以上章节所述,相对于通算中心(传统数据中心),智算中心在电气整体链路方面面临着一系列挑战,包括单机柜 功耗的显著提升、电力能源的接入问题、配电与IT机房的面积比、架构电能利用率、能效、智算56、负载分级、末端配电方式、负载动态冲击以及环境温度突变等挑战。应对这些挑战,仅在供配电系统单一环节进行局部优化难以解决,需要智算中心电气系统在全链路进行协同演进,构筑“智算电能管理链”。3.2.1 电力能源系统向“算电协同”演进面对电力能源接入的挑战,智算中心的演进趋势是向“算电协同”演进。相较于传统数据中心,智算中心在能源消耗方面呈现出显著的量级差异,这使得其更加注重可持续发展。具体策略 比如,智算中心的选址优先考虑新能源资源丰富、能源利用条件良好的地区。统筹智算中心发展需求和新能源资源禀赋,科学整合源荷储资源,开展算力、电力基础设施协同规划布局。探索新能源就近供电、聚合交易、就地消纳的“绿电57、聚合 供应”模式。整合调节资源,提升算力与电力协同运行,提高数据中心绿电占比,降低电网保障容量需求,探索光热发电与风电、光伏发电联营的绿电稳定供应模式。智算中心有较为明显的极限算力工况和平时算力工况,此运行特点可以保证智算中心充分利用绿电储能技术。当智算中心处在极限算力工况时,市电系统与绿电系统可以并行为其提供电力资源。当智算中心处在平时算力工况时,可以优选绿电储能系统为计算节点设备提供电力资源。但是对于新能源发电占比较高的电网,其稳定性易受新能源波动性的影响,市电的不稳定成为潜在风险点。因此,拥有自有可控的本地电源对于园区来说更为可靠。除依赖传统的发电机和不间断电源UPS、电池,还应有效利用58、局部区域内的各类可控能源,如小型水力发电、小型核反应堆(SMR)、氢燃料电池等,形成综合能源供应的资源池,不仅可提升 备用电源容量的利用效率,更能确保电能足质足量供应。新能源接入条件不佳的区域,在政策允许的情况下,智算中心可以与其他能源用户或能源供应商进行绿电交易、绿证交易、碳交易等能源交易和共享,既能以市场化手段支撑自身低碳转型,又能实现能源的互利共赢和最大化利用。3.2.2 简化供电系统架构演进如以上章节所述,随着智算中心功率密度的快速提升,配电室面积的占比也将显著增加。因此可以想象,在一个多层建筑中,智算中心将会形成类似金字塔的结构,底层配置大量配电设备,上层相对稀疏地摆放少量高性能服务59、器机柜。供电设备占地面积大,供电效率低是通算中心(传统数据中心)2N架构面临的问题,因此智算中心需要简化配电架构设计以提升系统利用率,降低配电设备的占地面积,DR(DistributedRedundancy)/RR(ReserveRedundancy)/N+1 简化架构将得到进一步的推广和应用。简化架构的本质,是在算力一定的前提下减少市电容量需求,或者在市电容量一定的前提下,最大程度地提升算力。与传统2N架构相比,DR架构(见图8)和RR架构(见图9),在简化架构供电系统的利用率明显提升,DR/RR架构的建设成本和运行成本也比2N架构降低10%,配电设备数量和占地空间明显减少。智算中心基础设施60、演进白皮书2122 图8:DR供电系统架构示意图 图9:RR供电系统架构示意图DR架构:属于“手拉手”结构,每台变压器10kV进线均采用双电源系统切换,组成三套独立的系统,每套系统都可以作为备份的冗余,末端的负载,由不间断电源UPS交叉供电,变压器负载率在66%以下,任何一套系统的故障都不影响 系统的运行,可用性能99.998%。DR架构在海外数据中心使用较多,国内较少使用。DR架构中配电设备使用减少接近25%,电源设备成本低。但由于设备和电缆路由难以实现物理隔离,发生故障时负载分别转移到其他电源,故障定位时间较长。RR架构:有一套固定的设备作为冗余备用系统,这套系统正常是不工作的。主用系统长61、期满载,备用系统处于长期 空载,当任何一套主用系统断电或维修时,它所承担的负载由备用系统带载。RR架构属于N+1配置,建设成本低,可用性99.995%,可靠性满足基本要求。设备和电缆路由可以实现物理隔离,但系统架构复杂、运维难度偏高。RR架构在三大通信运营商的通信机房较多使用,而数据中心使用较少。RR架构可以使智算中心的供电系统的利用率从50%提升到N/(N+1),同时将占地面积减少(N-1)/2N。实际上,只要在规划设计阶段做好负载分配,无论DR架构还是RR架构,其可维护性和可用性都是比较高的,其可用性均在99.99%以上。以传统2N架构为基准,单位面积下,DR架构算力提升33%,RR架构算62、力提升50%。如果选用一些非存储和通信的算力设备可能会进一步降低冗余度,这种情况下,采用备电模块级的N+1架构来替代DR/RR(双路冗余或完全冗余)架构,甚至取消冗余的组件和电池,这样简化配电架构将助力智算中心在有限的空间内 实现更大的算力。例如,如果采用英伟达(NVIDIA)DGXH100服务器,其电源架构是N+2的电源冗余的架构,基于服务器这样的 架构,DR架构更适用于DGXH100这样的服务器电源结构。自建项目:则采用DR/RR/N+1简化架构成本更低、效率更高,占用空间更小,并且通过减少冗余组件的数量和优化 电力分配,减少非必要组件宕机风险。第三方租赁项目:简化配电架构可能影响对潜在租63、户的吸引力,需要在简化配电架构的成本效益与吸引更多租户的 商业模式之间进行权衡。此外,锂电池替代铅酸电池和一体化电源方案也是智算中心集成度提升的一个明显趋势,以应对智算中心供配电面积占比过大的挑战。综上所述,智算中心的供电架构将由2N向混合简化架构演进,针对不同负载、不同场景和不同客户选择不同架构进行适配(见图10)。10kV ATS变压器UPSIT负载10kV ATS变压器UPSIT负载10kV ATS变压器UPSIT负载市电电源10kV配电备用电源市电电源10kV配电IT负载10kV ATS变压器UPSIT负载10kV ATS变压器UPSIT负载10kV ATS变压器UPSIT负载市电电源64、10kV配电备用电源市电电源10kV配电智算中心基础设施演进白皮书23241200mm600mm10kV ATS变压器变压器UPSUPSIT负载IT负载IT负载市电电源A3市电电源A3市电电源A2市电电源A2市电电源A1市电电源A110kV配电10kV配电10kV配电10kV配电10kV配电10kV配电动力辅助负载变压器UPS变压器UPS变压器UPS智算中心 包间1图10:智算中心2N+3DR混合供电架构示意图3.2.3 智算负载分级供电演进如以上章节所述,智算中心的训练业务负载属于可间断负载,因此,智算中心的训练业务负载对业务连续性、容错性和可用性的诉求发生改变,并不是所有负载都需要不间断和65、柴发后备电源。相较于昂贵的服务器成本,智算中心需要平衡后备电源供电的成本与服务器因断电损坏的潜在风险。智算中心在选择备电模型时,需要根据自身的风险承受能力进行决策,尤其是第三方租赁的智算中心,提供菜单式的分级供电可用性的服务等级协议(SLA)可能是一个可以平衡成本和风险的途径。3.2.4 预制电力模组演进采用预制电力模组将中压柜、变压器、不间断电源UPS、高压直流(HVDC)(见附录名词解释)、馈电等预制集成 交付,可减少电力室面积高达40%,交付周期缩短70%,实现更高的利用率、可扩展性和更快的部署,是智算中心电气链路演进的重要趋势之一。详见“5.2 电气预制模块化趋势”。3.2.5 UPS66、向MW级,超高效及高密化演进近年来,国家陆续发布UPS相关政策,引导UPS技术发展,2022年工信部发布的国家工业和信息化领域节能 技术装备推荐目录(2022年版)便将大功率模块化UPS作为数据中心机房整体模块化解决方案的重要产品之一。2024年5月,工信部发布国家工业和信息化领域节能降碳技术装备推荐目录(2024年版),其中数据中心节能降碳 技术提到重点发展高频、大功率、模块化UPS技术。目前通算中心(传统数据中心)主流UPS容量为400kVA/500kVA/600kVA,智算中心向MW级,超高效及高密化演进。由于智算数据中心IT系统功率快速提升,现有2500kVA变压器在占地及系统容量上不67、具备优势,变压器容量出现 向3150kVA及更大容量变化趋势,考虑到UPS并机台数限制,现有600kVA UPS主机在适配更大并机系统容量上面临 挑战。UPS单机容量由600kVA提升至1MVA及1.2MVA,减少并机台数,同时可进一步节省系统占地及后期运维成本,成为演进的趋势。同时,UPS需要持续提升功率密度,减小设备占地,以改善供配电设备辅助占比。以600kVA UPS为例,业界常规占地宽度一边为1200mm,但业界已有头部厂商通过架构及器件创新,将宽度缩减至600mm,功率密度提升100%,占地面积下降50%。(见图11)图11:600kVA UPS功率密度提升UPS高密化的基础是提升U68、PS能效,通过能效提升减小UPS发热量来应对UPS高密化带来的发热挑战,随着大 功率SIC器件的不断成熟及成本下降,UPS将采用SIC器件替代传统开关器件(见图12),运行效率可提升至97.5%以上,相对于传统96%效率UPS,UPS单台主机发热量可降低37.5%以上。智算中心基础设施演进白皮书2526图12:采用SIC器件的超高效UPS典型效率曲线(效率)98.00%97.50%97.00%96.50%96.00%95.50%95.84%97.30%96.67%97.24%0%20%40%60%80%100%120%(负载率)3.2.6 不间断电源系统储备一体演进.锂进铅退目前通算中心(传统69、数据中心)中铅酸电池仍然是主流,但随着智算中心电力的面积占比不断增加,与不间断电源 配套的电池室面积也在相应同步增加,有必要对电池选型进一步研判。2023年12月,中国建筑节能协会正式发布数据中心锂离子电池室设计标准,为锂电池在数据中心行业的规范化和规模化应用奠定基础。锂电池作为一种节能环保的电池技术,凭借占地面积小、能量密度高、承重要求低、循环寿命长、维护成本低等显著 优势,将逐步取代铅酸电池,成为智算中心的首选。行业内UPS头部厂商已全面兼容锂电池储能技术,利用数据中心UPS满载15分钟备电时间,以及UPS备电容量的 实际冗余进行相应的削峰填谷,无需改变供电结构,也不会额外增加制冷系统和E70、MS系统,在节能模式下效率高达99%,进一步降低能耗,显著提升了运营效率。.储备一体对于智算负载动态特性的调优适配UPS主机与锂电的储备融合,对于功率流的精准管理,将大幅降低GPU集群负载动态波动对于油机及电网的影响。在海外某大型智算中心的实际测试中,可以看到当UPS前端转为油机供电时,由于负载的大幅持续波动,油机的 输出端出现了明显的电压幅值及频率波动。(见图13)图13:市电与油机两种模式下UPS带智算负载的测试波形 市电模式 油机模式借助锂电池的高循环寿命,并结合UPS储备功能,通过精确的控制市电与电池的功率配比,实现UPS输入功率的 缓升缓降,减小智算负载动态特性对于油机的冲击,提升系71、统运行可靠性。3.2.7 末端电压等级提升及全直流系统演进随着智算中心单机柜功率密度的提升,供电系统优化的关注点将转向更高电压等级,以解决导体截面积过大,更多的材料和更大的体积的问题。同时,电压等级的升高也会带来远距离输电的优势,这将会引发数据中心设计架构上颠覆性的变革。通算中心(传统数据中心)在供电系统选择上,常见两种方案:AC400V不间断电源(UPS)和DC240V高压直流(HVDC)。这两项技术经过多年的市场考验,已证明其技术可行性,市场接受度较高,产业链较为成熟。但对于高密度、高效率的智算中心而言,由于智算服务器之间连接的光缆已经占用过多机柜的走线空间,探索更高电压的应用可以减少电源72、线占用的空间,带来潜在的性能提升和成本节约,这也更符合可持续发展的要求。再考虑到未来智算中心中直流设备(光伏、储能、电池、IT服务器、直流充电桩、直流照明和空调设备等)的比重将 越来越大,有必要建立一套兼容的全直流供电架构,这将有助于数据中心及周边新能源、储能的广泛接入,并支持负载侧的智能化调控。97.52%智算中心基础设施演进白皮书2728电压的提升确实是一个趋势,但同时也应该看到电压提升带来的一些风险,如单体产品的可靠性降低、短路和弧闪的风险增加,以及人身操作安全等问题。在选择供电方案时要综合考虑这些因素,并确保产业链整合、标准制定以及市场 接受度等方面的完善。此外,未来可能会向10kV交73、流转低压直流的全直流供电模式演进。全直流的供电模式是一种全新的供电架构,是 供电系统将来发展的一个方向,可以减少交直流变换的环节,因此供电效率将会更高。这种全直流供电架构将10kV交流输入转换为750V、400V、240V直流,750V直流用于接入分布式电源和储能以及 直流空调室外机组用电,400V直流为空调室内机组等直流设备供电,240V直流为照明、IT服务器等直流负载供电,实现全直流供电架构(见图14)。这种全直流供电模式可以很好地适配新能源供电,光伏、储能、充电桩等可以快速接入全直流系统,减少交直流变换的环节,提升供电效率。图14:全直流供电架构示意图MV GridSSTPower sh74、elfEnergy StorageSolar PowerWind PowerMV Generators10kVac48Vdc800VdcATSGridMV400800VdcBatteryDC CoolingAC load1000/Vdc350900VdcSolarFuel cell99%380Vac750VdcHVDC 97%10kVacDC/DC(MPPT)DC/DCDC/DCDC/ACDC/DCH20248VdcPSU shelf0.8Vdc98%97%BUSServer3.2.8 SST的前沿应用探索随着数据中心节能减碳力度的加大,尤其是“零碳”、“近零排放”等发展趋势下,新能源将成为数75、据中心未来电力 能源的基础。新能源是直流供电系统,其具有控制快速灵活、系统效率高、供电容量大、线路损耗小、电能质量高、具有 无功补偿能力等优点,更适合于分布式电源、储能装置和直流负载的灵活接入,是数据中心电源系统发展的重要方向。为解决智算中心的新能源供给问题,提升空间利用效率,经过多年技术发展,高压直流(HVDC)、巴拿马电源以及 固态变压器(SST)(见附录名词解释)等10kV中压直流电源解决方案不断涌现固态变压器(SST)也称为“能源路由器”,在基于直流电网区域架构中,适用于微电网的直流用电场景。固态变压器(SST)不仅在中压之间具有高频隔离的直流或交流接口,可实现局部自治的单向或双向潮流76、,还具有电能管理、能源 管理以及故障管理的能力,支持不同直流发电单元、储能系统和用电单元之间、不同用电电压之间的电力交互。直流环节的固态变压器(SST)结构(见图15),不仅可以在原方接入直流设备,如储能电池、光伏电站等,还能同时在副方为直流、交流设备提供稳定的电能供给。利用这一特性,可解决新能源引入后智算中心供电架构面临的诸多问题。图15:直流环节固态变压器(SST)图需要特别说明的是,固态变压器(SST)由于存在电压制式及拓扑器件成熟度问题,在可靠性,可维护性及使用规范 方面面临着挑战,现在仍以试点为主,需要业界产品生态的进一步完善。3.2.9 包间白地板交付方式的演进在智算中心建设时,经77、常遇到没有明确GPU芯片型号的情况,但同时又需要兼容未来发展,避免后续改造性资金 浪费,采用包间白地板交付的方式,以不变应万变是一种可行的策略。智算中心从明确采购某型号的GPU芯片,至GPU芯片交付,中间的时间间隔较长,白地板交付方式可利用此时间差 进行基础设施的部署,从而保障项目的整体交付进度。3.2.10 融合末端配电方式的演进随着智算集群规模的增长,智算中心的单机柜功耗已迅速攀升至上百千瓦,导致智算中心单机柜功耗并非都是固定的,在10130kW之间都有分布,采用单一的末端配电架构已无法适配智算中心弹性较大的机柜功耗,需要采用融合的 末端配电方式。传统的列头柜方式需要占用一个IT机柜的位置78、,而智能母线(见图16)系统采用沿机柜排布,不占用机柜面积,可显著提升空间利用率。同时,其模块化结构和即插即用的特性可简化安装和维护流程,降低长期运维成本,并且智能 母线的铜排使用寿命要高于导线寿命。因此,传统列头柜+电缆敷设的方式难以适应智算中心需求快速变化的需求,为灵活适应未来服务器应用的变化,低压输出侧将逐渐转变为大母线与小母线相结合的方式。智能母线这种方案具有 高弹性、节省占地、快速部署、高可靠性及易维护等优点,特别适用于智算中心高密度、需求不明确的场景。智算中心基础设施演进白皮书29303.3 新能源、储能在智算中心的应用分析相较于通算中心(传统数据中心),智算中心和在能源消耗方面呈79、现出显著的量级差异,这使得智算中心更加注重 可持续发展问题。同时,智算中心的供电容量不足问题也愈发凸显,因此新能源的利用变得至关重要。本章节将重点分析智算中心采用新能源与储能的必然性、面临的挑战以及潜在的收益。关于新能源、可再生能源、储能的概念(见附录名词解释)。3.3.1 新能源在智算中心应用是必然趋势光伏和储能具有更短的开发周期,可以更好的满足智算应用井喷的电力需求,同时也有助于对能源的高效利用,实现智算中心的绿色发展。以下是新能源在智算中心应用的一些具体的方法和手段:y智算中心的选址优先考虑新能源资源丰富、能源利用条件良好的地区。这不仅有助于智算中心降低运营过程中的碳排放,符合可持续发展80、理念,也符合政府对绿色发展的政策导向,有助于智算中心在未来获得更多政策支持和市场机遇y由于现场部署光伏板的方式无法满足智算中心大规模用电的需求,因此,集成度更高的源端 新能源发电场站(以下简称“能源站场”),成为满足智算中心电力需求的重要选择。通过对局部区域内的各类可控能源场站进行全面的评估,包括能源的种类、规模、稳定性、可持续性等因素。根据评估结果,将不同能源进行有效整合,形成局部区域内综合能源供应的资源池,保障能源供应的稳定和高效y在局部区域内建设分布式能源系统,如分布式光伏、储能等,与智算中心的能源管理系统进行对接,构建能源 微电网。但由于新能源多为直流电,因此需要特定的方式将其接入电网81、。可以将直流电转换为交流电后接入交流电网,也可通过直流耦合接入直流电网。在选择微电网新能源接入方式时,需要综合考虑应用场景、技术条件和经济成本等因素y在政策允许的情况下,智算中心可以与区域内的其它能源用户或供应商进行能源交易和共享。例如将本地的光伏电量优先存在储能系统中,通过需求侧响应、电力辅助服务、电力现货交易、补贴等形式,参与能源平台交易,实现能源的互利共赢和最大化利用。通过综合运用上述策略和方法,智算中心能够充分挖掘区域内各类可控能源的潜力,建立负载预测模型,依据用能 行为和用能状态进行能源错峰管理,构建一个综合能源供应的资源池,实现能源利用的最大化。这样不仅有助于实现能源的高效利用,降82、低智算中心的运营成本,还能提升环境效益,同时推动可持续发展,为企业的竞争力提升提供有力保障。智算中心对末端配电需求的不断提升,传统单相rPDU已难以胜任更高功率的应用场景。相比之下,三相rPDU可提供更高的功率支持,但也使服务器的电源分配变得更加复杂,特别是三相负载平衡问题需要重点关注,因此配备监控功能显得尤为重要。监控型三相rPDU通过实时监控电流、电压等关键参数,优化电源分配,确保三相负载平衡,从而提升供电的稳定性和安全性。同时,监控功能为运维人员提供详尽的数据分析与故障预警,有效提升管理效率和系统可靠性。还需注意的是,三相rPDU的尺寸较传统单相rPDU更大,加之智算服务器深度和液冷分液83、器的安装,进一步压缩了 机柜背面的安装空间。因此,选购rPDU时需考虑rPDU的安装空间和安装方式。如空间不足,建议选择横装水平PDU,以适应有限空间,确保合理布局和安装便捷。对于智算中心不同的单机柜功耗,建议的解决策略:y单机柜1020kW:采用列头柜+电缆+2条/4条单相PDU电源的配电方式即可满足需求y单机柜2040kW:若采用8条单相PDU电源的配电方式,需要着重解决电源线数量众多导致的服务器检修不便及检修时造成二次故障的问题,而采用列头柜+电缆/智能中功率母线+横装近端三相PDU电源的配电方式更为 适配此功耗段的机柜 y单机柜功耗120140kW:此功耗段机柜为前瞻性、探索性的人工智84、能(AI)整机柜交付方式,目前有两个比较 主流的解决方案,其一是采用大母线/智能中功率母线+铜排/工业连接器+预制大容量模块RACKBUSWAY的 方案,单条RACKBUSWAY可以达到120200A三相电流,服务器和RACKBUSWAY采用常规C13和C19插头 电源线直接连接。另外一种是采用集中式PSU(见图17)的Powershelf+BUSBAR方案,将服务器电源与服务器解耦,BUSBAR与电源采用铜排连接,与服务器采用盲插连接 图17:集中式PSU图16:智能电母线智算中心基础设施演进白皮书31323.3.2 新能源发电在智算中心消纳仍面临诸多挑战新能源发电在智算中心消纳面临诸多挑战85、,其随机性、波动性和低能量密度的特性限制其稳定供电能力,与智算中心 稳定供电的需求相悖,因此,新能源难以单独承担起智算中心电源供应的责任,必须与其它稳定的能源形式相结合。例如氢能,虽然它能效高、供电稳定,但在技术、安全、运输等方面的实施标准更高,在高度重视安全性的智算中心,广泛应用还欠缺相应条件。另外,新能源的并网、储能、智能调度技术,政府补贴、电价和能源政策尚待进一步完善。新能源发电在智算中心的消纳中,如何克服上述多方面的难题,以下是一些建议:y在建筑物和园区拥有丰富空间资源的智算中心,适宜发展本地能源发电设施1.办公和基础设施的用电由园区光伏发电系统供应,多余电量在园区内储存以备后用,当储86、电能力达到极限后,可向城市电网输送2.在天燃气供应网络完善区域的智算中心,通过冷、热、电三联供等方式,分布式燃气供能系统可以实现能源的梯级利用,进一步提高能源的综合利用效率3.在一些小型的智算中心,模块化氢燃料电池、小型模块化核反应堆等技术也是实现能源供给优化的有效手段y在新能源接入时,必须重新设计配电架构,以避免多种新能源发电的混合系统中,由于配置很多电力电子设备而导致的电能质量问题。例如:在新能源接入点与智算中心配电系统之间使用隔离变压器或电力电子装置,将新能源产生的谐波与系统隔离;通过合理设置电缆长度、截面和连接方式,减少谐波电流的传输,确保系统 关键节点的电压、频率、畸变率等参数处于稳87、定状态y使用仿真分析软件来辅助电力系统设计,将新能源发电功耗预测按照不同尺度精细化设计,例如:按照时间尺度进行短、中、长期预测,按照空间尺度分为单区域预测、单场站预测,以消除分布式光伏、风电等能源波动对电能稳定性的影响,实现高效利用y采用多种能耗管理策略,有效降低碳排放并减少电价成本。例如:通过优化调度和需求响应策略,作为可调载荷参与电力需求侧响应,提高能源利用效率并优化新型电力系统的资源配置;利用市场手段促进本地发电资源优化配置,作为电力调度机构、电力市场之间的中介,参与主能量市场、辅助服务市场,参与多种电力市场的运营模式及其调度框架,从被动的消费者逐步转变为主动的产销者y面对新能源发电的不88、稳定性,需要运维团队更强的系统监控和调节能力,综合考虑不同新能源的发电特性、储能设备的充放电状态以及智算中心的用电需求,制定合理的能源调度策略,确保能源的高效利用和系统的稳定运行y另外,新能源和储能技术能否在智算中心中得到广泛应用,还取决于技术和产业的成熟度和适用的场景。只有 经过全面评估,并确保技术与场景相匹配,新能源和储能技术才能为智算中心带来实际效益3.3.3 储能系统在智算中心应用的多重价值由于受到空间限制的影响,在智算中心部署储能系统的规模很难做大。但是,由于储能系统有能力根据时间变化 提供额外能源,这与智算中心用电负载随气候变化的特点相匹配,因此,可以与智算中心的基础架构融合,提高89、智算中心的IT和外电转化率,替代一部分不间断电源UPS备电设备,发挥额外的经济收益,收益甚至远大于常规本地光储一体本身带来的经济收益。配置储能为智算中心带来的关键收益:y配置储能系统可以获得额外的备用电源。独立于传统供电系统运行的储能系统,在电力不足或其他紧急情况下,仍可持续提供额外的电力供应。例如,在改造的智算中心中,当配电容量不足且用电功耗大于变压器容量时,短期内可通过额外的储能设施快速放电来“增峰”,满足负载电能高峰值的需量要求,进而在短期内延缓输电 设备的扩容周期和降低资金投入;在面对智算负载的波动性时,通过对储能系统进行精准控制,可以最大化地 利用储能系统的调峰能力,从而避免电网或油90、机的过载冲击,以及因电力不足而导致的运算中断的风险y减少对柴油发电机的依赖。智算中心作为能源消耗大户,其环境影响和碳排放问题也日益受到关注。柴油发电机在运行过程中对环境造成一定的污染,而储能系统大多基于可再生能源(如太阳能、风能等)进行充电,能量 转换效率更高,更加有助于减少温室气体排放。储能系统可以储存多余的电能,并在电力需求高峰或电网故障 时进行可靠释放,从而减少对柴油发电机等备用电源的依赖和需求y参与储备电网服务。储能还可以为智算中心运营提供节能和创收的机会。未来随着越来越多的激励措施,支持 储能参与电网活动,例如减税和退税等,智算中心将更积极地参与能源市场的交易和竞争,以寻找最优的电力91、 供应方案。随着锂电池价格的持续下降,这种趋势将更加明显。结合分布式能源、储能、不间断电源UPS、发电机和自有变电站,未来的智算中心将可能成为能源站。这些能源站将积极参与储备电网服务,为电网提供调峰、调频等辅助服务,从而降低运营成本并有可能创造额外的收入y增加可再生能源的使用。智算中心由于耗电更多,对电价也更加敏感。而从2024年4月1日起,电网将不再“全额收购”新能源发电,更多的新能源发电需要通过市场化交易来消纳,这可能会导致电价波动变得更加频繁,进而影响能源成本。如果智算中心能够有效地利用储能设施来平衡这种供需差异,不仅可以提高其能源自给自足的能力,降低能源成本,同时也能够优化和增加可再生92、能源的使用效率以上是配置储能系统给智算中心带来的好处,包括提供弹性、环境可持续性以及降低能源成本,这也使得储能系统 成为众多智算中心值得考虑的技术。然而,部署储能的投资回报率(ROI)在很大程度上取决于具体用例、负载曲线、当地市场条件和其他因素。因此,储能系统需要根据特定的输入场景和运行模型,从而准确预测财务回报或投资回报率。智算中心基础设施演进白皮书3334智算电能管理链电力能源接入 及油机供电 架构中低压配电柜+不间断电源后备 电池列头 末端机柜 服务器 供电演进方案算电协调,新能源 接入DR、PR 供电架构预制 电力模组SST 全直流 架构MW级 大功率UPSUPS 超高效 及高密化UP93、S 储备一体,功率流 管理高倍率 磷酸铁锂 电池智能 中功率 母线PSU 集中式 机柜供电三相 智能型 rPDU客户价值提升点降低初投资提升电能 利用率提升能效节省占地快速交付降低TCO机柜功率 弹性适配AI动态负载特性适应绿色低碳H202电网新能源油机中压柜预制式电力模组&高密UPS&锂电柔性 智能母线PSU供电 整体柜3.4 智算电能管理链如以上章节所述,智算中心对电气链路的挑战及演变趋势,根据与IT电气环节距离的从近到远,主要包含列头 配电、UPS输出配电、不间断电源UPS,UPS输入配电,10kV变压器,油机(低压),中压柜,油机(高压),各个环节对于智算中心的客户价值分析及演进方案如94、下表所示:四.智算中心制冷系统架构4.1 制冷技术发展趋势如以上章节所述,智算中心的单机柜功耗已经有大幅提升。从单机柜2030KW,到单机柜4050kW,到单机柜 70132kW,以及未来可能达到的的200kW超高功率密度单机柜,智算中心呈现加速高密化的趋势。(见图18)图18:OMDIA咨询公司预测值(2023年)传统机柜功率密度1OMDIA Data Center Capacity Report 20231代AI训练模型2020-202312代AI训练模型2022-202513代AI训练模型2022-20251房间级风冷空调远端送风型式的散热能力上限为单机柜25kW,当单机柜功耗超过25k95、W时,房间级风冷空调 很难满足服务器的散热需求。对于单机柜功耗在2580kW的高密度散热需求,可采用列间空调、背板式风冷、薄板风墙等近端送风或冷板液冷 技术,其中液冷技术因具有高效散热、低能耗、低噪声、占地面积小等突出的优势,成为智算中心制冷系统的优先选择。现阶段风冷高密和液冷高密方案并存,液冷采用冷板式液冷的型式居多,至于选择风液混合还是全风冷则取决于不同的需求及项目条件。本白皮书将会针对不同技术的应用特性来分析其适合的应用场景(见图19)。或智算中心基础设施演进白皮书3536冷链类别技术方案应用特性系统描述芯片侧风冷芯片(TDP1000W)风冷服务器(风扇)风冷芯片 解热上限处理过的冷空气96、通过并对服务器制冷液冷芯片(TDP1000W)单相冷板+制冷水/冷冻水风冷与液冷的应用 过渡区采 用 泵 驱 动 制 冷 液 流 过 芯片 背 部 的 冷 板 通道,制冷液在通道内通过板壁与芯片进行换热,带走芯片的热量。换热后的制冷液在换热模块中散热制冷液冷芯片(1000WTDP2000W)单相冷板+冷冻水/制冷水单相冷板液冷芯片 解热上限采 用 泵 驱 动 制 冷 液 流 过 芯片 背 部 的 冷 板 通道,制冷液在通道内通过板壁与芯片进行换热,带走芯片的热量。换热后的制冷液在换热模块中散热制冷液冷芯片(TDP2000W)两相冷板/耦合液冷相变 冷板液冷相变冷板:利用液泵驱动液态冷媒进入芯片97、 背部的冷板,吸热后蒸发成气态,再利用水冷 冷 凝 器 制 冷 成 液 态 并 将 热 量 排 入 制 冷 水 系统。一次侧可以采用冷冻水耦合液冷:芯片部分采用相变冷板带走热量,服务器内剩余部分元器件通过浸没液冷带走 热量图19:制冷技术演进路示意图IT侧散热技术机房侧散热技术4060kW左右开始考虑液冷,但根据服务器或芯片的不同,液冷可能会更早开始使用极高密度80kW低密度 10kW中密度10 25kW高密度25 80kW房间级风冷直膨冷冻水背板冷板液冷 单相 浸没液冷 单相 相变 相变 4.2 制冷系统架构的分类及方案本白皮书对制冷系统架构的建议是:宜遵循从芯片(服务器)侧机柜侧末端空调侧98、冷源侧的整条冷链的系统化 解决方案(见图20)。同时,对不同种类的技术方案进行对比,分析其应用特性,建议合适的应用场景,最终选择出最合理的空调制冷方案。图20:冷链系统化解决方示意图服务器芯片数据中心设施服务器/机架集热列间/房间集热设施/户外散热4.2.1芯片侧风冷芯片解热上限为TDP1000W,单相冷板液冷芯片解热上限为TDP2000W,TDP超过2000W需采用相变 液冷。列间级风液混合将成为大多数高密设计的标准,因为1030%热量仍然需要 风冷进行散热智算中心基础设施演进白皮书3738冷链类别技术方案应用特性系统描述机柜侧空调侧风冷低密度(单机柜10kW)风冷房间空调适用多层建筑。水资99、源紧缺地区采用氟泵风墙或 下送 风;水资 源 丰富 地区 采 用 水冷双冷源风墙或下送风。超大 规模采用冷冻水风墙或下送风低 功 率 密度 项目,多为 传 统 低 功耗段服务器,多采用风冷房间级空调部署,包括氟泵变频房间级空调、水冷双冷源房间级空调、冷冻 水房间 级 空 调 等。以 封 闭 冷通道下送风和封闭热通道水平送风为主风冷低密度(单机柜10kW)风冷列间空调适用于微模块产品配套,常见于 多机房分散布局项目或机房高度受限类项目或分期使用类项目常 规 方 案 为:一 拖 一风 冷列 间 单独部署和一拖多多联方案部署多联 方案可有效减少室内外机 连管的初投资单个 包 间 模 块 数 量 少 100、时,多联 方案通常为水氟主机或全变频 氟泵涡旋压缩机多联部署方案;单个包间模块数量较多时,可采用大颗粒度磁悬浮相变多联方案部署风冷低密度(单机柜10kW)预制化空调适用于1层或2层大平层建筑条件的项目主要为一 体化氟泵空调和风侧 间接蒸发制冷空调两种产品技术方案,在 水资源 紧 缺 地区 推 荐 采 用 一 体化 氟 泵 方 案,水资 源 丰富的地区两种方案均可部署4.2.2机柜侧/末端空调侧(风冷技术)y风冷低密度(单机柜10kW)1.1-2层大平层建筑,可采用预制化空调2.3层及以上建筑,可采用远端水平送风或下送风形式的房间级精密空调3.微模块内配套列间空调冷链类别技术方案应用特性系统描述101、机柜侧空调侧风冷中密度(单机柜1025kW)风冷房间级精密空调(远端送风方式)可解决25kW单机柜功率密度散热冷热通道宽度根据机柜功率密度灵活变化。可采用双冷源风墙、冷冻水风墙、风冷氟泵 风墙等形式,采用预冷+补冷形式的风墙,能有效助力机房实现低PUE值风冷中密度(单机柜1025kW)风冷型列间空调适用于微 模块 产品配套,常见于多机房分 散 布 局 项 目 或 机 房 高 度 受 限 类 项目或分期使 用类项目常规方案为:一拖一风冷列间单独部署、一拖多风冷列间多联方案部署多联方案可有效减少室内外机连管的初投资。单个包间模块数量少时,多联方案为水氟主机或全变频氟泵涡旋压缩机多联部署方案;单个包102、间模块数量较多时,可采用大颗粒度磁悬浮相变多联方案部署风冷中密度(单机柜1025kW)预制化一体式空调预制化一体式空调,通 常 为 远 端 风 墙 送 风 形 式,可 解 决 单 机 柜2 5 k W 散 热 场景需求适用于1-2层大平层建筑主要为一体化氟泵、间接蒸发冷、预制化双冷源等方案水资源紧缺地区优先采用一体化氟泵方案,水资源丰富地区三种方案均可部署预 制 化 空 调 通 常 为 远 端 风 墙 送 风 形 式,可解决单机柜25kW散热场景需求风冷中密度(单机柜1025kW)风冷背板式空调适 用于有局部热 点特 性的机 柜场景,以 及低密度 风冷机柜改造扩容的场景背板空调可采用冷冻水背板103、空调或氟冷背板空调背板空调方案将整个机房规划为大冷池,背板和服务器之间自密封形成热通道冷冻水背板通常采用环管供水进行备份,前端配置CDU进行水温调节氟背板采用模块之间交叉备份方式进行备份,降低主机宕机的影响范围y风冷中密度(单机柜1025kW)1.远端水平送风方式可解决风冷25kW单机柜功率密度散热2.1-2层大平层建筑,可采用预制化空调3.3层及以上建筑,推荐采用房间级空调(远端水平送风方式)4.微模块内配套列间空调5.改造项目或为实现高出柜率,可采用背板空调形式智算中心基础设施演进白皮书3940单机柜功率密度模型场景冷备份下,机组最高送风温度CFD仿真图(仿真结果均满足GB 50174-2104、017中冷通道1827要求)23kW房间级精密空调(远端水平送风)18kW预制化一体式空调(远端水平送风)35kW列间空调(近端送风)40kW薄板风墙精密空调(近端送风)y风冷极高密度(单机柜80kW)1.80kW及以上的极高密风冷场景,可采用冷冻水背板形式,但需增加背板门宽度和高度尺寸,因而需增加机柜尺寸y风冷高密度(单机柜2580kW)1.45kW高密度机柜可采用近端风墙精密空调2.列间空调在一对一模式时可解决风冷60kW单机柜功率密度散热3.更高功率密或更高出柜率度则需采用冷冻水背板空调冷链类别技术方案应用特性系统描述机柜侧空调侧风冷高密度(单机柜2580kW)风冷房间级精密空调(近端风105、墙送风)近端风 墙空调最大满足45kW的高密度机柜散热需求冷冻水型 近端薄板 风 墙可解决最大45kW 单机柜功率密度散热,模块化产品技术易于部署,同时该方案的气流组织相对更好。风冷高密度(单机柜2580kW)风冷列间空调风冷列间空调可解决60kW以内的高功率密度散热需求风冷列间空调,更高 功率密度散热可采用 多对一的列间空调方案,但出柜率会大大降低风冷高密度(单机柜2580kW)风冷背板空调大冷量背板空调多为冷冻水背板,常规机 柜背 板门尺寸的背 板 空 调 可 解 决 5070kW高功率密度散热需求背板传热量随着进风温度升高而增加,随着 冷冻水流量增加而增加,背板换热量基本不会受到机柜内部106、服务器布置均匀性的影响冷链类别技术方案应用特性系统描述空调侧风冷极高密度(单机柜80kW)风冷背板空调为风冷技术 散热能力的上限,最大支持8 0 k W 高 功 率 密度 散热极高密风冷散热,机柜尺寸更大,采用冷冻水背板,需增加背板门宽度和高度尺寸下表为部分风冷高密度场景下房间级精密空调(远端水平送风)、预制化一体式空调(远端水平送风)、列间空调(近端送风)、薄板风墙精密空调(近端送风)的仿真模拟图对比:智算中心基础设施演进白皮书4142冷链类别技术方案应用特性系统描述机柜侧空调侧液冷低密度(单机柜10kW)冷板液冷CDU为冷板液冷和浸没式液冷的制冷液提供热交换器,调节制冷液温度和流量。在复杂107、环境中部署间接或直接液冷设备时,CDU可为局部制冷液输送和排热提供完整的解决方案。在全液冷环境中支持直接液冷方案时,CDU需搭配散热系统使用。CDU与热管背板一起使用时,通常会采用冷水机组提供的低温冷水来对热管背板进行制冷y在规模小的应用场景,可采用风 液 C D U 或 者 分布 式 C D U 方案y在数据中心扩容改造场景,宜采用风液混合式CDU方案y在新建的中大型智算中心的 空调系统,更宜采用液-液热 交换CDU方案低密度液冷通常为多节点CPU液冷或单节点GPU液冷,推荐采用风液CDU方案,简化部署方案,减少初投资浸没液冷低功率密度浸没通常为一体机浸没液冷方案,简化部署,减少初投资液冷中108、密度(单机柜1025kW)冷板液冷边缘机房和算力试点项目,多采用分布式CDU或风液型集中式CDU。大规模液冷部署多采用集中式中颗粒度液液CDU浸没液冷多采用单相浸没液冷方案液冷高密度(单机柜2580kW)冷板液冷边缘机房和算力试点项目,多采用分布式CDU或风液型集中式CDU。大规模液冷部署多采用集中式大颗粒度液液CDU浸没液冷可采用单相浸没液冷或相变浸没液冷解决方案液冷极高密度(单机柜80kW)冷板液冷边缘机房或算力试点项目,多采用分布式CDU或风液型集中式CDU大规模液冷部署多采用集中式大颗粒度液-液CDU。可采用单相冷板液冷或相变冷板液冷,当前单相冷板液冷可解决单机柜132kW散热,相变冷109、板液冷可解决单机柜160kW散 热,而耦合 液 冷可解 决单 机 柜200kW散热浸没液冷可采用相变 浸 没 液 冷,此 方法可 最大化制冷液的热传导特性,也是最高效节能的液冷方式4.2.3机柜侧/末端空调侧(液冷技术)部署密度极高的机柜时采用液冷是大势所趋,但在选择液冷技术方案时,由于10-30%热量仍然需要风冷进行散热,因此风液混合将成为大多数高密设计的标准。y液冷全密度应用场景1.边缘计算场景,宜采用风液CDU或者分布式CDU2.企业级应用场景,宜采用中颗粒度集中式液液CDU3.人工智能(AI)大规模集群场景,宜采用大颗粒度集中式的CDU4.改造场景时,宜采用风液CDU对现有风冷机房进行110、风改液改造,并充分利用原有风冷空调设备4.2.4冷源侧芯片供液温度在ASHRAE标准的W17/W27/W32类别时,液冷CDU建议采用冷冻水冷源模式;芯片供液温度在ASHRAE标准的W40/W45/W+类别时,液冷CDU可采用闭式系统的冷却水作为冷源。是否采用冷冻水作为冷源,取决于服务器供液温度,以及一次侧与二次侧系统的逼近度ATD。冷链类别技术方案应用特性系统描述机柜侧空调侧风冷冷源风冷冷凝器风冷系统:常规系统选用风冷冷凝器,追求系统高效则宜采用蒸发式冷凝器液 冷系 统:适 用于改 造 场 景下,分 体 式 室 内冷 机 的冷 源 方案风冷冷凝器是一种用于制冷和冷凝蒸汽的热交换器,不需要水源111、,环保且高效,是常规室外方案蒸发式冷凝器多用于磁悬浮多联系统室外冷源冷冻水冷源(出水温度围525)风冷螺杆风冷系统:全场景适配各种冷冻水末端液 冷系 统:芯片 供 液 温 度 在ASHRAE标准的W17/W27/W32类 别时的应 用场景,可 同时作为风冷及液冷系统冷源多用于冷冻水末端冷源,或冷板液冷进水温度要求较低时的冷源方案风冷系统:系统简单,适用于水资源匮乏的地区水冷系统:系统能效高,适合于大型数据中心,可采用模块化集成式冷水机房产品方案,方便运输及部署水冷螺杆风冷磁悬浮水冷普通离心水冷磁悬浮水冷冷源(出水温度围3228)干冷器风冷系统:主要适配水冷空调和双冷源空调的冷源设备液 冷系 统112、:芯片 供 液 温 度 在ASHRAE标准的W40/W45/W+类 别 时 的 应 用 场 景,可 同时作为风冷及液冷系统冷源多用冷冻水末端冷源(如水冷双冷源、水冷变频空调等),或冷板液冷进水温度要求较高的冷源方案开式制冷塔闭式制冷塔智算中心基础设施演进白皮书4344冷链类别技术方案客户关注因素高可 靠性高能效低初 投资高出 柜率低屋顶占用率低噪音调节 范围广建筑兼容性优芯片侧风冷(TDP1000W)风冷芯片/液冷芯片(TDP1000W)单相冷板+冷却水/冷冻水/液冷芯片(1000TDP2000W)相变冷板/耦合液冷/机柜侧空调侧风冷低密度(10kW)风冷房间空调/风冷列间空调/预制化空调/风113、冷中密度(1025kW)风冷房间空调 远端水平送风/风冷列间空调/预制化空调/风冷背板空调/风冷高密度(2580kW)风冷列间空调/风冷背板空调/风冷近端 风墙空调/风冷极高密度(80kW)风冷背板空调/4.3 制冷技术应用评估以上总结的制冷技术均有着不同的应用特点及应用场景,下面将从用户关注的要素点出发,从技术可靠性、运行 能效、初投资、出柜率、占地空间、噪声程度、柔性调节以及对建筑条件要求等方面对各类技术进行对比评估(见图21)。图21:用户关注要素技术路线对比图冷链类别技术方案客户关注因素高可 靠性高能效低初 投资高出 柜率低屋顶占用率低噪音调节 范围广建筑兼容性优机柜侧空调侧液冷低密度114、(10kW)冷板液冷/浸没液冷/液冷中密度(1025kW)冷板液冷/浸没液冷/液冷高密度(2580kW)冷板液冷/浸没液冷/冷源侧风冷冷源风冷冷凝器/蒸发式冷凝器/冷冻水冷源风冷螺杆/水冷螺杆/风冷磁悬浮/水冷普通离心/水冷磁悬浮/水冷冷源干冷器/开式冷却塔/闭式冷却塔/续表智算中心基础设施演进白皮书45464.4 智算中心制冷应对策略如以上章节所述,智算中心负载特性呈现出周期性、大幅度、并发性、瞬时冲击等动态负载特性,那么针对智算中心 动态负载特性的制冷解决方案,建议从两方面考虑:y提高制冷系统的响应速度1.硬件方面,可以选用高精度传感器2.软件方面以PID(Proportional Int115、egral Derivative)控制为例,可以适当增大P、D并减小I,这样系统的响应 速度会加快。但需要注意的是,调节速度变快后,容易引起制冷系统的震荡和超调,因此需根据实际情况合理设置并反复调试验证后再投入应用3.可以通过功耗变化控制制冷设备输出,提前适应负载变化y采用人工智能(AI)预测性控制技术基于人工智能(AI)负载预测算法,可以根据智算的任务计划来预测数据中心未来的负载趋势变化。通过对比负载预测结果和负载实时数据,指导空调提前进行预调,确保在负载高峰或低谷到来之前已经调整到最佳 运行状态,从而实现快速响应y连续制冷对于有条件的智算中心,建议采用在线式蓄冷系统,并对关键设备配备足够容116、量的不间断电源UPS来实现 连续制冷,最大限度保证连续制冷。与风冷系统不同的是,液冷系统CDU,必须配备UPS实现不间断供冷。风冷 系统的大冷池具有热缓冲能力,液冷芯片内的流体几乎没有热缓冲能力,突发的供电故障会使得液冷服务器芯片瞬间升温而宕机y定制化制冷解决方案智算时代的制冷系统面临着芯片及服务器多样性、通算与智算相结合以及快速迭代更新的各种应用挑战,因此 既有的制冷技术应用经验并不一定继续有效,对制冷产品的选择也不应是单一维度的评估及考虑综上所述,针对芯片(服务器)侧、机柜侧、末端空调侧、冷源侧的整条冷链,结合不同种类的技术方案、不同的应用 场景进行对比,从而制定出最合理的空调制冷方案。因117、此,在智算中心建设初期,建议选择在数据中心热管理方面拥有深厚专业知识,且具有全链条专业技术能力的服务型制造商来参与项目的规划设计,形成项目最适宜的定制化解决方案。随着技术的进步,未来可能会出现更多创新性的解决方案,进一步提升供配电模块与制冷系统的集成度及系统 效能。五.智算中心预制模块化技术的应用分析人工智能(AI)技术加速驱动智算中心的建设与发展,同时也对智算中心的建造模式提出更多要求。通算中心(传统数据中心)具有较高的通用性特点,其项目规划设计的考虑要素为用地指标、电力容量、资金预算等 因素,在建设过程中多数采用标准化的基础设施产品。而智算中心的建设模式面临着人工智能(AI)芯片/服务器多118、样性 所带来的定制化需求,在建设初期需要提供更加针对性的整体解决方案,以及更快速、更完整的服务体系。但传统工程化的建造模式较难全面适应新兴的建设需要。预制模块化技术在实现数据中心的“去工程化”的同时,可以满足数据中心的 快速部署、性能的可预测性,以及降低数据中心现场施工所带来的人为失误。因此,预制模块化技术目前已成为智算中心行业发展的核心趋势之一。5.1 智算中心预制模块化技术发展趋势从智算中心的业务启动开始,如何对其近期和长期成本曲线做到更多的掌控,以便能选择最适合其业务需求的运营 成本模型,并在新的算力上线时提供可预测和透明的成本结构,是智算中心重点考虑的问题。因此,成本确定性及灵活 可扩119、容性将是衡量智算中心业务可行性及可持续发展的的重要标准之一。选择基于整体解决方案的预制模块化技术,因其支持模块化系统设计和定制化生产交付,使得智算中心项目可以 根据需求进行灵活扩展和升级,并更容易实现可定制化。通过添加、替换或升级预制化组件,可以快速调整系统规模和 性能,适应不断变化的智算业务需求。另外,模块化产品的多样性,可以根据智算中心项目的能源条件及智算负载特性,针对性的选配或开发适合的功能 模块(例如,水/地源热泵模块、余热回收模块、储能模块等),通过优化组合实现初期投资、分期建设以及运营成本的最佳平衡组合。同时也可以根据定性、定量的功能模块配置,推算出智算中心项目能支持的最大算力上限120、,对项目初期的决策具有重要指导意义。相较于通算中心(传统数据中心)12-15个月的建设周期,智算中心的交付需求时间在3-9个月,未来甚至会变得更短。因此项目建设需简化流程,并行开展不同阶段的任务,以便能加快建设进度。预制模块化技术在智算中心项目中大范围的使用,可有效加快建设进度。预制模块化技术将建造过程从现场搭建 转移到工厂生产线进行,因其不受场地空间及设备现场安装工序的限制,可实现多模块的并行生产和流水线式的撬装 总成,以批量化和标准化的方式生产数据中心模块、功能设备模块(例如,电力模块、空调模块等)、软件环境等组件,通过标准化生产和工程化管理,大幅缩短智算中心的建设周期。预制模块化技术在项121、目启动之初,在项目完成规划及方案设计时,便可启动生产流程,并与施工现场工作并行进行,加快项目实施进度。智算中心基础设施演进白皮书4748中压柜10/0.4kV低压配电柜UPS 输入UPSUPS 输出精密配电IT 负载电网油机电网油机另外,在工厂环境下进行生产可以严格控制质量标准,减少施工缺陷和人为错误,提升建造质量和可靠性。如结合 基于制造业的物联网技术应用,使得模块产品的各部件可以实现从生产到运维的全生命周期可追溯,有助于减少后期 维护成本及维修更换时间,延长智算中心的整体使用寿命。另外,由于土地成本上升、劳动力短缺以及能源电力限制等因素的影响,智算中心的建设成本与落地难度持续增加。传统以高122、可靠性为核心的建设标准,已不能继续适应快速迭代的智算中心项目对投资回报周期的要求。因此,一方面需 考虑采用更加适合的建设标准以及成本更优的建造方式,另一方面需考虑初期项目投资,除服务器设备以外的设备复用性及可回收性,以应对智算中心业务的挑战。预制模块化技术通过规模化生产和优化供应链管理实现建造成本的降低,减少在传统工程模式中的人力成本、材料浪费等的额外开支,相比于传统现场建造,模块化产品的可移动性以及二十年的设备舱使用寿命,例如电源模块、柴发模块及冷源模块等设备,为项目升级、迁移及改造等创造了可行性,因此,预制 模块化技术可以实现模块产品的回收改造及再利用,降低项目全生命周期的综合成本。同时,123、预制模块化技术也为融资 租赁等新型业务模式创造可行性,一定程度上可以减少项目建设初期的投资压力。人工智能(AI)的需求是全球化的,这使得智算中心基础设施业务也是国际化的。根据出海企业的分享经验,海外项目的交付,往往需要雇用较多的本地员工,人才多元化的情况下呈现出不同的文化背景和习俗差异,比如不同的语言表达、工作和管理习惯,以及对商业的理解,最终导致项目上沟通和管理上的困难。在短期内无法有效克服上述困难的情况下,可考虑将更多的生产作业量选择在国内提前完成。采用预制模块化技术,一方面采用集装箱型式的预制模块化产品有着天然的运输便利性;另一方面,工厂高度预制化集成能够大幅减少现场工作量及作业时间,降124、低施工现场的不确定性与 风险。在项目实施现场,预制模块产品按照标准化作业规程进行模块拼装,逐个泊位,以便能够应对天气变化、人员流动等不确定因素,更好的实现对项目风险管控。值得一提的是,根据AFCOM(计算机操作管理协会)2024年度研究报告显示,在对新建数据中心的受访者调研中 发现,其认为最有可能采用预制化的部分是电气预制模块化(78%)和制冷预制模块化(72%)。接下来,将分别对电气 预制模块化和制冷预制模块化这两部分展开分析。5.2 电气预制模块化趋势预制化供配电电力模组是电气预制模块化的重要应用之一,也是一种应对智算中心变配电室、IT包间面积比激增的 有利措施。通算中心(传统数据中心)的125、供配电系统普遍采用传统分散式供配电结构(见图22)。电力室分为高压室、变配电室、低压室、不间断电源UPS、高压直流(HVDC)室等,类型多且布局分散,占用面积大。电源设备由不同的厂家生产,高压柜、低压柜、交/直流不间断电源系统分散部署在不同的机房。供配电系统的一次和二次线缆都需要现场连接,即使是相邻的配电柜进出线也 需要上下翻折,线缆线路长、损耗大,后续的线缆检修和系统扩容难度高。智算中心的供配电系统更多的采用预制化供配电电力模组结构(见图23),预制化供配电电力模组将中压柜、变压器、UPS、高压直流(HVDC)、制冷、馈电等预制集成交付(见图24),减少电力室面积高达30%,交付周期可 缩短126、50%,实现更高的利用率、可扩展性和更快的部署。另外,针对智算中心扩容需求,项目在前期规划预留出设备的部署空间,针对扩容所增加的用电设备,将其相关的配电柜、动力柜、控制柜等设置于室外型电力方舱(见图25),做到精准 匹配。预制供配电模组在工厂进行预装,采用标准化设计和专业测试,这也意味着组件设备更少、维护人员要求也低,同时也降低施工过程中的碳排放。图22:传统分散式供配电结构图图23:预制化供配电模组结构图 图24:预制化供配电电力模组示意图 图25:室外型电力方舱方案示意图中压柜预制化供配电电力模组智能中功率母线智算中心基础设施演进白皮书4950机柜级行级&房间级预制模块化数据中心5.3 制127、冷预制模块化趋势数据中心的制冷系统按照制冷方法分为机械制冷和自然制冷。机械制冷液体汽化制冷、气体膨胀制冷、温差制冷。自然制冷包括蒸发冷却技术、热管冷却技术、直接新风冷却技术、氟泵冷却技术等。基于以上分类,空调系统可根据功能段被划分为不同的独立模块,如制冷模块、通风模块、预制管组、换热模块、水力模块、控制模块等。这些模块可在 工厂内进行预制,实现快速组装和拆卸,便于安装、维护和升级。智算中心的制冷预制模块化仍要满足高负载、高可靠性的要求,因此预制模块化设计需要综合考虑多种因素,如制冷量、气流组织、散热效率等,并且考虑到大型的制冷预制模块在运输过程中可能受到的道路条件、运输工具等限制,需要拟定特殊128、设备的运输方案。同样,在安装现场,也需要精确的定位和吊装设备,确保模块的准确安装。因此,制冷预制模块化需要通过建筑空间设计、空调系统设计、电气设计等多专业的协同工作,优化系统布局和模块设计,提高设计的合理性和可行性,并利用先进的模拟软件进行性能仿真分析,提前发现和解决潜在问题,同时采用特殊的运输工装和吊装设备,提高运输和安装的效率和安全性,例如采用可拆卸式的模块结构,在运输时进行拆分,到现场后再进行组装。具有代表性的有预制模块化高效机房(见图26)和模块化液冷外部冷源模块(见图27)。预制模块化高效机房是将冷冻水系统中的冷水机组、冷冻机制冷水泵、制冷塔、板换、配电机控制柜等主要设备在 工厂内成129、套集成,布置在定制模块化设备舱中,在工厂内完成FAT(工厂验收测试)测试后,运往现场与管道连接,实现 快速部署。模块化液冷外部冷源系统模块是将液冷系统的一次侧系统中的制冷塔、循环水泵、软水系统、定压补水、管路辅件、控制系统在工厂内模组化,在工厂内完成FAT(工厂验收测试)测试后,运往现场与管道及电缆连接,实现快速部署。图26:某代表性模块化高效机房示意图 图27:某代表性模块化液冷外部冷源模块示意图5.4 智算中心预制模块化趋势智算中心预制模块化技术的发展演进,根本目的是为能够全面满足人工智能(AI)工作负载的电能和热管理需求,搭建安全稳定的负载运行环境,并快速部署要求。因此,需要智算中心预制130、模块化解决方案是一个结合基础设施、服务和软件的解决方案组合,通过优化电气系统与制冷系统之间的协同工作来达到以上目的。这种组合不仅有助于提高数据中心的整体效率,降低运营成本,而且还符合绿色节能降耗的发展趋势。这种多系统融合的预制模块化解决方案(见图28),按规模可分为:y机柜级推理与边缘人工智能(AI)(70kW/柜),适用于需要快速设置且空间有限的场景,例如远程办公室、分支 机构、边缘计算站点等y行级&房间级企业和数据中心(40100kW/柜),适用于人工智能(AI)实验室、推理及模型训练以及既有数据 中心的空白间y基础设施&数据中心级(132kW/柜),为整体预制模块化数据中心,适用于人工智131、能(AI)大模型训练及人工智能(AI)数据中心图28:预制模块化解决方案分类智算中心基础设施演进白皮书51525.5 预制模块化技术的应用与挑战智算中心快速扩张及迭代带来的能耗、环境等问题,势必会迎来相比通算中心(传统数据中心)更为严格的行业监管及地区限制,因此,未来智算中心的建设需要从多维度支持其可持续发展。y采用预制模块化技术有助于减少施工现场的噪音、污染和能耗,同时在工厂环境下进行精确的计划和确的资源利用,可最大程度地减少浪费和损耗y模块化产品亦具有升级、转移及回收等特性,有助于提高资源利用效率,降低对环境的影响根据预测,模块化产品最多可降低智算中心项目三分之二的碳足迹,支持可持续发展的132、建造模式,助力项目的 立项与审批当下预制模块化技术发展的最大挑战是缺乏统一的行业标准。各个制造商在进行装配式建筑时采用不同的构件尺寸和连接方式,导致采用的模块无法互通、组合和替换。在项目建设初期,考虑到构件生产、运输和安装等诸多因素,要求在确认相关产品设计时投入更多的时间和精力。另外在面对不同的技术路线及制造体系的预制化技术产品时,智算中心需要更多的标准及规则把品牌多、种类多、数量多的设备进行标准化和定制化,并探索自动化及智慧运维场景,以便更好的 评估预制模块化技术,选择出适合其项目特性的预制模块化产品。需要强调的是,预制模块化技术的核心并非模块化产品的生产制造本身,而在于多专业融合的技术服务133、,即对项目 需求的掌控,以及在项目全过程的深度参与。建议在项目筹划阶段,可以更多的考虑选择拥有全面技术体系的服务型 制造商,共同探讨项目的既定目标及实施计划,以便在相应的决策后可以快速优质的完成交钥匙项目。另外需特别注意,在不同国家地区应用预制化技术时应提前了解项目地的法律、政策及规范等,例如当地是否 对进口设备的种类及金额有管制要求、是否涉及有强制性认证要求的产品等等。另外在东南亚等国家,对室外集装箱放置超过2年的要求需按建筑物报批及报建,要做好提前的沟通及应对。六.总结与展望人工智能(AI)的快速发展,使得智算中心(主要是训练业务)的机柜功率密度和集群规模迅速增加,这些变化 呈指数级增长,134、正在颠覆性的改变通算中心(传统数据中心)在选址和空间规划、机电系统方面的设计方法和理念。为设计相对前瞻性的智算中心以满足未来的业务需求,从业者需要密切关注IT技术(芯片、服务器、集群)的发展和采用本白皮书所推荐的设计方法。本章节将展望一下未来的技术和设计方法,从而应对由于人工智能(AI)发展所带来的挑战。y智算中心需要更适合的标准来指导产业健康有序发展 即使是智算中心以追求极致算力为核心业务目标而非 连续性,但因为智算服务器昂贵的造价和水进入服务器内部(冷板式液冷),使得智算中心对暖通系统可靠性的要求开始超过供电系统。国际上通行的数据中心可靠性标准中,目前主流是Uptime的Tier分级和TI135、A-942的Rated等级,均是由低到高分为1级-4级可靠性等级。但与Uptime不同,TIA-942可以分别针对暖通系统(例如 液冷或风墙)和电气系统(例如电力模块)单独定义其Rated可靠性等级。这样在不同的智算场景下,电气系统和暖通系统可以根据业务要求、市电质量,灵活的对暖通和电气系统提出不同的等级要求。随着液冷的普及,特别是冷板式液冷的可靠性要求将成为智算中心的核心安全要求,或许将出现新的R3+提法,即液冷R4而电气R3,与通算年代(传统数据中心)的T3+(电气T4而暖通T3)有一定的相似性y供电深入负载中心 由于集群规模越来越大,对供电的容量需求也越来越大,传统的供配电链路设计存在占136、地面积大、距离长、损耗大等缺点,未来配电链路的设计将深入负载中心,即配电室与IT机房靠近部署,将中压 通过大母线接到IT机房,然后通过小母线进行末端配电。这可以减少线缆的使用和缩短安装时间,同时减少 开关柜的数量y核能等新能源广泛应用 在智算中心大规模集群的用电需求爆发式增长背景下,以及“碳中和、碳达峰”的 目标下,核能可以提供持续、低碳的电力供应解决方案,未来具有广阔的发展前景yDR/RR/N+1配电架构上升 智算中心的业务需求不再需要极端的2N冗余,可以容忍一定程度服务中断。智算中心的智能化管理、高可靠性的硬件和软件组件,不采用2N架构,采用DR/RR/N+1配电架构满足也能达到 所需的系137、统可靠性水平。因此,在此基础上,从经济性考虑,DR/RR/N+1配电架构呈现上升趋势y算电协同:绿电聚合 智算中心对算力和电力的需求急剧增加,同时,提高能源效率和降低能耗,构建全国 统一的算力网络,实现算力资源的优化配置和调度,而且,智算中心的运营成本中电力费用占有很大比例,算电 协同可以有效降低运营成本。因此,算电协同发展已成为必然趋势y母线(Busbar)作为末端配电的首选 当机柜功率密度超过120千瓦时,传统的机柜配电条形插座在末端配电方面变得不切实际(供电容量和安装空间的限制)。这时,整机柜服务器所采用的48V母线Busbar+电源框(PSU)或者独立的电源柜将成为末端配电的首选智算中138、心基础设施演进白皮书5354y全液冷方式 风液混合是目前解决高功耗芯片和机柜制冷的主要手段,但是,随着机柜功率密度的进一步 增加,以及机柜背部空间更多地用于网络连接,采用风冷对其它器件(除GPU等加速器)进行制冷将变的不可行,这时需要考虑采用全液冷的方式,可以是全冷板,全浸没,或者冷板+浸没的方式y液冷新型制冷剂 液冷技术已逐渐成为智算中心高密度散热的最佳解决方案之一,但是目前对液冷制冷剂 要求较高,导致液冷制冷剂成本居高不下,液冷新型制冷剂的革新将是液冷技术革新的主要方向之一,比如 用普通水作为液冷制冷剂的解决方案y固态技术的进步 传统变压器体积大,占用空间也大,不利于智算中心IT与配电空间139、的匹配和规划。同时,传统变压器只能采用交流供电,不利于对可再生能源的集成和使用。固态变压器(SST)小巧轻便,同时可以 在交直流之间进行转换,可以解决传统变压器面临的挑战。相较于通算中心(传统数据中心),智算中心的电流 要大的多,所以及时切断故障电流来控制弧闪的能量密度和保障人员安全变得尤为重要,固态断路器通过使用 半导体来接通或切断电流,速度更快,可以有效地控制故障电流y更多分布式能源与可再生能源 随着人工智能(AI)集群的不断增大增多,智算中心无论在市电引入的容量 方面,还是在可再生能源使用的占比方面,都会有更高的要求。氢燃料电池和小型模块化核反应堆(SMR)在 补充能源供给与提高可再生能140、源使用比例方面是非常好的选择,将具有越来越好的前景附:名词解释1.人工智能(Artificial Intelligence,简称AI):研究和开发使机器模拟人类认知功能,如学习、推理、感知、交流和解决问题的技术领域2.通算中心:即传统数据中心,是指以通用计算任务为主的数据中心,没有特定的指向,是进行各种计算任务的基础3.智算中心(Artificial Intelligence Data Center,简称AIDC):人工智能(AI)算力中心的简称,是一种专门为人工智能(AI)的大规模数据训练、推理模型典型应用场景提供高性能计算资源的数据中心4.生成式人工智能(Artificial Intell141、igence Generated Content,简称AIGC):是一种利用AI人工智能技术自动生成文本、图像、视频、音频等多种形式的技术形态,它涵盖自然语言处理(NLP)、计算机视觉(CV)、音频处理等多个领域5.范式革命:是指在科学领域中,当现有的理论体系(范式)无法解释新的观测结果或存在严重矛盾时,科学界经历的一次根本性的理论变革过程。这一过程最终导致新的理论体系取代旧有范式,推动科学知识的进步和发展6.通用算力(General-Purpose Computing Power):指的是可以执行各种计算任务的计算能力,不特定于某一种 类 型的计算或应 用。通常由CPU(中央 处 理单元)提142、 供,适 用于广泛的应 用,包括日常办公软件、网页 浏览、视频播放等7.智能算力(Intelligent Computing Power):指的是专门设计用于处理人工智能(AI)和机器学习(ML)任的 计算能力。通常由GPU(图形处理单元)、TPU(张量处理单元)或FPGA(现场可编程门阵列)等专用硬件 提供,适合进行大量的数学运算,如矩阵乘法等8.超算算力(Super Computing Power):指的是由超级计算机提供的极其强大的计算能力,通常由成千上万的CPU和/或GPU核心组成,提供极高的计算速度和数据处理能力,通常用于气候模拟、天体物理学模拟、基因 组学研究、密码学、药物发现等领143、域9.训练(Training):是指通过一定的算法模型,建立一个复杂的神经网络模型并通过特定参数和海量数量的 训练,让算法形成一种智能的识别体系10.推理(Inferencing/Reasoning):是指利用训练好的模型与实际的应用建立一个闭环系统,通过与用户的交互交付模型识别的结果,推理需要大量的边缘算力部署,确保应用的广泛性和大数据的多样化11.CPU(Central Processing Unit):中央处理器,是计算机的主要处理单元,负责执行程序指令、处理数据和 控制计算机的其他硬件部件智算中心基础设施演进白皮书555612.GPU(Graphics Processing Unit)144、:图形处理单元,用于大规模并行计算,如图形渲染、科学计算、深度学习等13.NPU(Neural Processing Unit):神经网络处理单元,专门设计用于加速机器学习任务,尤其是深度学习算法14.TPU(Tensor Processing Unit):张量处理单元,由Google开发,专门用于加速TensorFlow框架下的机器 学习工作负载,执行TensorFlow模型的训练和推理15.英伟达(NVIDIA):是全球领先的图形处理器(GPU)制造商,因其在GPU技术、市场领导地位、性能优势、软件和硬件的紧密结合以及行业合作与支持等方面的综合优势,在算力需求中占据重要地位16.新能源(N145、ewenergy):通常指的是相对于传统能源(如煤炭、石油和天然气)而言,那些技术较新、开发利用时间较短的能源形式。包括太阳能、风能、生物质能、地热能、海洋能等,具有较低的污染排放17.可再生能源(Renewableenergy):是新能源的重要组成部分,可再生能源指那些来源于自然界,可以不断再生的能源,其特点是取之不尽、用之不竭,主要包括太阳能、风能、水能(包括潮汐能)、生物质能、地热能等18.储能(Energystorage):是指通过某种方式将能量存储起来,在需要时释放19.高压直流(High Voltage Direct Current,简称HVDC):是一种电力传输技术,它通过整流器146、将交流电变换 为直流电形式,再通过逆变器将直流电变换为交流电,从而实现电能传输和电网互联。HVDC系统通常由两个 换流站和直流输电线组成,换流站与两端的交流系统相连接,能够实现电能等级和方向的快速精确控制,提高 电网性能和效率20.固态变压器(Solid State Transformer,简称SST):是一种集成电力电子变换技术和高频变压器的先进电力 设备,它能够实现电压变换、电气隔离和无功功率补偿,与传统变压器相比,SST体积更小、效率更高,并且能够适应智能电网的需求主要作者介绍董卫卫,深知社联合创始人、高级运营总监,毕业于北京大学。长期从事数据中心规划、设计和售前工作,主导规划、设计、建147、设多个大型数据中心以及液冷数据 中心,致力于推动数据中心行业绿色、创新技术的应用。在数据中心规划、设计、售前、全过程咨询、液冷技术等领域有着丰富的项目经验。陈淼,深知社首席研究员,毕业于英国谢菲尔德大学,系统工程工学硕士。长期从事控制系统工程、机电工程全过程咨询顾问及模块化机电产品开发。在模块化高效制冷 机房、余热回收系统及液冷外部冷源系统等领域有着丰富的项目实施经验。王谋锐,深知社高级研究员,高级电气工程师。长期从事于数据中心机房规划、建设、交付及机房咨询规划、售前等工作。对主流互联网数据中心 定制化设计交付、数据中心全生命服务有着丰富的项目经验。智算中心基础设施演进白皮书57深知社深知社官148、网:D意见反馈感谢您阅读智算中心基础设施演进白皮书!我们衷心地希望您能够在百忙之中对我们的工作和报告提出宝贵的意见和建议。维谛技术有限公司售前热线:400-887-6526维谛官网:V版权声明本白皮书完整版权属于维谛技术,维谛技术和深知社共同拥有发行权,并受法律保护。凡是需要在转载、摘编或利用其它方式使用本白皮书成果中的文字或者观点的,均需要预先获得维谛技术的书面 许可,并注明来源:“智算中心基础设施演进白皮书”。未经书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,将追究其法律责任。官方公众号免责声明尽管本公司已采取一切预防措施以确保信息的准确性和完整性,但本文件信息可能包含财务、运营、产品系列、新技术等关于未来的预测信息,该预测具有不确定性,可能与实际结果有差别,本公司不对信息的任何错误或遗漏负责。本文件信息仅供参考,不构成任何要约或承诺。本文件信息如有变更,恕不另行通知。Vertiv和Vertiv标识是维谛技术的商品商标和服务商标。维谛技术2024年版权所有。E-X621*-0924维谛技术有限公司深圳市南山区学苑大道 1001 号南山智园 B2 栋电话:(0755)86010808邮编:518055售前热线:400-887-6526售后热线:400-887-6510