《华为:2024年AI DC白皮书(54页).pdf》由会员分享,可在线阅读,更多相关《华为:2024年AI DC白皮书(54页).pdf(54页珍藏版)》请在薪酬报告网上搜索。
1、?一份给 CIO 规划建设智算数据中心的参考前言算力正成为新“黑金”十几年前,美国时代周刊提到:网络带宽将成为石油之后,二十一世纪的新“黑金 Black Gold”。那个时候,或许没有人预见到,十年之后的人工智能会跃迁到今天的水平。大模型的疯狂“涌现”,生成式 AI 的突然“顿悟”,一时间构筑起 AI 的“拉瓦尔喷管”,全球人工智能产业正无限逼近“迸发”的状态,人类社会将以远超我们想象的速度,加速迈向智能世界,算力正成为二十一世纪的另一个新“黑金”。AI 是趋势,不是潮流从 1956 年人类首次提出“人工智能”的定义以来,AI 的发展经历了多次的起起伏伏,即使在 AI 持续占据全球科技头条的今
2、天,依然有相当数量的人和组织,对人工智能的未来表示怀疑、担忧和犹豫;但 AI 从未停止向前,技术不断创新突破,产业规模不断增大,应用从单点到多元化扩张、从通用场景向行业特定场景不断深入。AI 必将重构传统产业,并将催生出诸多新产业。ChatGPT 的横空出世,让人类通往通用人工智能AGI 之路从未像今天这样清晰,AI 已经是不可逆转的趋势,不是潮流。AI驱动下,人类将从以数据(Data)和信息(Information)为主的信息社会,到以产生知识(Knowledge)和智慧(Wisdom)为主的认知社会。未来几十年,我们将迎来一场认知革命,今天的生成式 AI 只是一个开始。这是 DC 白皮书,
3、不是 AI 白皮书当“百模千态”已然成型,当“千行万业智能化”快速成势,首先得到全行业重点关注的不是 AI 应用,而是AI基础设施。要想富、先修路,任何国家和企业,要想在 AI 时代“富”起来,首先要把 AI 基础设施这条“路”修好,而数据中心恰恰是 AI 基础设施的核心之核心。数据中心的雏形从 1940 年前后就开始出现,随后几十年间,随着互联网、大数据和云计算的发展,数据存储和数据处理变得越来越重要,数据中心也成为企业信息化、数字化的核心基础设施。迈向智能时代,数据中心首先要提供的是算力,承载的主要是 AI 训练和推理,支撑的是企业关键智能化应用,这类面向未来的数据中心我们称之为智算数据中
4、心 AI DC。未来的数据中心一定是 AI 定义的AI DC 不是传统数据中心的简单升级改造,而是数据中心的一次全方位重构。从过去的成本中心到今天的生产中心,从数据存储和处理中心,到价值创造中心。互 联 网 和 云 计 算 带 来 了 软 件 定 义(Software-defined)的基础设施,未来的数据中心基础设施一定是 AI 定义的。AI 带给数据中心的挑战也将是多维度的,如:算力密度、能源效率、AI-powered 的运维与运营以及可持续性发展等。强大而坚实的 AI 算力底座,是智能化转型的基石。数据中心不断演进,从存储数据、支撑应用,到提供算力、承载 AI 训练和推理,再到生产智慧、
5、使能智能化,其重要性和行业价值不断凸显,值得产业链各方重点关注。希望这本白皮书能为全行业 AI DC 的规划与建设提供一些参考。谢海杨超斌王磊李鹏最近一段时间,围绕企业 AI 落地、AI 算力基础设施建设,我与很多客户伙伴、AI 生态链的朋友们进行了沟通交流,大家基本有一个共识,都把 AI DC建设作为企业智能化转型的优先举措;但 AI DC 与传统数据中心存在很大区别,在企业数智基础设施中的定位变了、承载的业务变了、数据处理和算力提供的要求也变了,再加上技术还在不断创新升级,如何高效高质量建设 AI DC 值得全行业深入思考。从实践中进行复盘总结,汇聚全行业智慧,这就是这本白皮书的价值。生成
6、式 AI 为保险行业发展提供了新质生产力,场景落地和价值闭环是当前核心问题,不论是技术探索,还是大规模应用部署的效率和成本考量,对企业 AI DC 的建设和运营都提出了极高的要求。白皮书基于技术趋势和产业实践,系统性地阐述了 AIGC 产业应用的建设策略和实现路径,并给出不同场景下的 AI DC 建设方案,具有重要参考价值,激发深入思考。中国有句谚语:“要想富、先修路”,建设高质量的ICT基础设施是企业数智化转型、实现商业成功的基石。AI DC 作为新一代数智基础设施的核心,华为在过去几年与客户的建设实践与创新探索中,有经验、有教训,也还存在许多新课题需要大家一起解决。这本白皮书只是一个开始,
7、全行业需要协同创新,共同推动 AI DC 发展,携手迈向智能时代。千行万业正在积极拥抱人工智能,把行业知识、创新升级与大模型能力相结合,以此改变传统行业生产作业、组织方式。在如何用好人工智能方面,有色行业不断探索,聚焦人工智能服务有色场景,在氧化铝、电解铝、高端铝加工等领域持续实践。这本白皮书提出了很多可供企业参考的观点,特别是针对如何规划建设企业数智基础设施的核心-AI DC 上,给出了方向性的建议和非常实用的评估指标,而这也是企业落地 AI 的最关键一步。华为公司董事、ICT 产品与解决方案总裁 中国铝业集团 CIO 太平洋保险集团数智研究院院长 华为公司高级副总裁、ICT 销售与服务总裁
8、邹志磊智能时代,AI 只有进入企业的核心生产场景才能发挥巨大价值,这势必驱动企业业务系统从传统的“构成式”变成“生成式”。企业智算数据中心作为数智基础设施的核心,将从成本中心变成创新中心,技术架构也会发生颠覆式变化,传统数据中心时代的建设模式、系统架构、运维运营等可能都不再适用。这本白皮书是对当前行业实践的总结和复盘,面向未来我们还将持续探索和思考,就如何规划建设好 AI DC 给出更多参考建议。马海旭何宝宏苏廉节走向智能时代,AI DC 将是整个智能社会的坚实底座。中国各级政府在布局引导、建设规划、技术创新和应用赋能等方面持续出台举措,推动算力基础设施发展。企业也不断加快探索实践步伐,推动
9、AI DC 向大规模、高质量和强应用的方向发展。本研究报告在规、建、管、用等多个维度,体系化梳理,立体化呈现 AI DC 最新态势,有助于促进产业发展。AI DC 承载的是人工智能应用、训练和推理等工作,与其他类型的数据中心存在很大的差异。当前的人工智能发展迅速,新技术新应用层出不穷。如何去构建一个坚实可靠的算力底座来满足长远未来的发展需求和应付人工智能应用的迭代演进是每个企业都必须去迎接的新挑战。Omdia 人工智能首席分析师人工智能应用繁荣的基础是算力。作为提供算力的关键数智基础设施,AI DC 需要充分发挥计算、存储、网络、云、能源等技术领域的综合优势,以系统架构创新,持续突破规模算力瓶
10、颈。从 2019 年发布 AI 战略及解决方案开始,华为就广泛参与到全球客户 AI 算力基础设施的建设实践中,并不断与产业链相关方开展联合创新,打造有竞争力的产品与解决方案,为客户创造价值。把这些有价值的客户建设实践与全行业的智慧汇聚在一起,形成了这本白皮书,希望帮助客户更快更好地建设 AI DC,加速千行万业智能化转型。中国信息通讯研究院云计算与大数据研究所所长 华为公司高级副总裁 华为公司副总裁、ICT 产品组合管理与解决方案部总裁目录第五章AI DC 建设与发展倡议 94行动倡议一:适度超前建设 AI DC 95行动倡议二:共同实现 AI DC 集约化建设和绿色发展 98行动倡议三:共建
11、开放协作的行业 AI 生态 99行动倡议四:筑好三个底座,加速行业 AI 走深向实 100第一章AI World 总体愿景及宏观驱动力 10人工智能是一个大方向,不可阻挡 11AI for All 15理想主义与现实主义交相辉映迈向 AGI 17第二章All in AI 生成式业务系统 18企业发展 AI 的不确定性和确定性 19架构先行,将不确定挑战变成确定机遇 21应用场景为纲,四位一体,实现价值三角 23以数据中心为中心 32第三章智能时代数据中心的发展与变化 34数据中心走向智算数据中心 AI DC 35AI DC 主要承载 AI 模型的“训推用”37AI DC 四大建设场景及三大类型
12、 39AI DC 五大特征变化 43数据中心将被重塑,由分层解耦到垂直整合 53第四章典型 AI DC 规划与建设 56超大型 AI DC 57大型 AI DC 72小型 AI DC 880908AI DC 白皮书一份给 CIO 规划建设智算数据中心的参考AI World总体愿景及宏观驱动力第 1 章人工智能是一个大方向,不可阻挡生成式 AI 日新月异的发展,让人工智能如风卷残云般走向舞台中央。根据中国信息通信研究院的相关报告显示,截止2024 年 7 月,全球 AI 企业近 3 万家,全球人工智能大模型有 1328 个,其中中国各类企业在不到 2 年时间就上市发布 478 个人工智能大模型。
13、人工智能正引发全产业链的新一轮工业革命,也将给人类社会发展带来一个“天大的机会”。斯坦福大学“Human-Centered”人工智能研究所发布的 2024年人工智能指数报告显示,从 2023 年到 2024 年第一季度,全球 AI 独角兽已有 234 家,新增数量为37 家,占新增独角兽总量的 40%;2023 年,虽然全球 AI 投资总额有所下滑、降至 1892 亿美元,但生成式AI领域的投资激增,比2022年增长了近8倍,达到 252 亿美元。六十年的芯片技术发展,三十年的互联网发展,Transformer 架构的不断突破,以及数据的极大丰富,让 AI 技术不断走深,AI 应用不断向实。继
14、OpenAI 公司推出 ChatGPT 之后,2024 年华为公司推出的盘古大模型 5.0 版本,以及 Anthropic 公司推出的大模型 Claude 3.5 Sonnet 版本,宣告大模型从“聊天”正式迈入“工作流”。1110AI DC 白皮书一份给 CIO 规划建设智算数据中心的参考AI 是过去 70 年 ICT 产业发展的总成果AI 将引发百年未有之大变革1956 年,时任达特矛斯学院助理教授的约翰麦卡锡组织召集了达特矛斯讨论,正是在这次会议上,第一次正式提出了“人工智能”的定义。从那以后,人工智能经历了两次发展的低谷,即所谓的“冬天”,但其发展的脚步并未就此停止。自从 1971 年
15、英特尔发布第一颗微处理器开始,摩尔定律见证了 ICT 产业的蓬勃发展。如果把 AI 产业和ICT 产业这 70 年的发展轨迹画到一起,我们发现,纵观人类社会发展史,通用目的技术的大规模应用历来是社会变革的催化剂,而被彼得戴曼迪斯在未来呼啸而来一书中定义为“指数型技术”之首的人工智能,将引发一场百年未有之大变革。自十八世纪蒸汽机问世,科技创新将时代划分为蒸汽时代、工业时代与信息时代,现今,智能时代正扑面而来,其背后的驱动力正是 AI 算力。这股力量不仅将为公众生活注入个性化与便捷体验,还将以创新逻辑推动各行技术的准确定位是发挥其最大价值的前提。给人工智能技术进行合理的定位,是我们理解和应用此技术
16、的基础。如同公元前的轮子和铁,19世纪的铁路和电力,以及 20 世纪的汽车、电脑、互联网一样,人工智能是一组技术集合,是一种新的通用目的技术。加拿大学者 Richard G Lipsey 在其著作经济转型:通用技术和长期经济增长一书中提出:社会经济的持续发展是靠通用技术的不断出现而持续推动的。所谓通用技术,简单理解就是要有多种用途,应用到经济的人工智能与 ICT 产业的总体发展水平密切相关,学术研究发现和工程技术发展相辅相成。而 AI 产业两次“冬天”的出现,都是因为社会对 AI 的应用期望大大超越了ICT产业工程水平的发展现实。所幸的是,“冬天”并不是结束,而是每一次“春天”的开始。今天,我
17、们再次进入了“收获”的季节。这是 70 年来全球 ICT 学术界和工业界长期耕耘、协作创新的成果。各业效能提升与经验革新,为科研开辟新路径。AI的普及深化不仅会加速传统产业智能化转型,优化资源配置,提升决策质量,激发产品与服务创新,还将进一步优化社会经济结构,推动全球经济步入高质量增长新周期。AI 引发的变革将是一场体验革命、效率革命、经验革命和科研革命,以智能化为标志的新时代已经来临。几乎所有地方,并且有巨大的技术互补性和溢出效应。经济学家们认为,人类发展到今天,共有 26 种通用技术,受益于过去 70 年 ICT 产业的总体发展,人工智能成为其中一种。面向未来,我们应该充分用好人工智能技术
18、,抓紧收获,努力扩大收获成果,同时要让收获的季节持续的更长一些,把人工智能建在赤道上,永远生机勃勃。图 1-1 AI 是过去 70 年 ICT 产业发展的总成果19561970s1990s2020s摩尔定律牵引下的 ICT 产业发展AI 流行度?图 1-2 人类进入智能时代1312AI DC 白皮书一份给 CIO 规划建设智算数据中心的参考智能经济将是数字经济发展的下一跳当前,全球数字经济保持持续快速发展。根据中国信息通信研究院相关报告显示,2023 年,美国、中国、德国、日本、韩国五个国家的数字经济总量已逾 33万亿美元,年增长率超过 8%,数字经济对 GDP 的贡献达到60%。这不仅彰显了
19、数字经济的迅猛发展,更凸显了其在全球经济版图中的核心角色。其中,人工智能推动的经济发展规模是关键力量。人工智能驱动的智能经济将在人机交互、IT 基础设施与新业态三个层面带来重大变革。首先是人机交互模式的优化,让交流更加自然流畅;其次,它将重塑IT 基础设施,构建更高效、更智能的信息处理与传输体系;最后,智能经济会催生一系列新业态,激发跨领域创新。这三个方面并非孤立存在,而是相互影响、协同演化,形成合力并产生复合效应。数字经济的进化始于个人计算机的发明和普及,继而在物联网与移动互联网中成熟,今天正步入人工智能为核心的智能经济新阶段。智能经济是以效率、和谐、持续为基本坐标,以物理设备、电脑网络、人
20、脑智慧为基本框架,以智能政府、智能经济、智能社会为基本内容的经济结构、增长方式和经济形态。作为全球经济的新引擎,智能经济致力于主导效率提升、和谐发展与可持续增长的全球经济未来图景。过去四十年,信息化和数字化给 ICT 行业带来了数万亿美元的战略机会。展望潜力十足的智能时代,华为预测,至 2030 年,全球智能经济规模将超过18.8 万亿美元,将为 ICT 领域的未来发展开启全新战略窗口。AI for All AI 的快速发展和大模型的 涌现 预示着它将重塑每一个组织和每个人的生活。专家和机构预测 AI 将深刻影响世界。那目前企业和个人对 AI 的接受度及应用进展如何呢?麦肯锡 2023 年的报
21、告指出,55%的组织已在至少一个部门采用人工智能,这一比例是 2017 年的 2.75倍。Gartner 在其2024 年重要战略技术趋势报告中预测,到 2026 年,超 80%的企业将运用生成式 AI;到 2028 年,75%的企业软件工程师将使用AI 编码助手,而 2023 年初这一比例不足 10%。每个行业都将被 AI 重塑在人工智能触发的产业变革大潮中,所有行业都将被重塑。今天我们已经可以清晰地预见一些行业将发生怎样的变化:图 1-3 智能经济将成为全球经济发展新引擎图 1-4 AI 正在改变千行万业1760-1990蒸汽机&内燃机IT&互联网智能技术技术发展时间1990-201720
22、18-Future工业经济数字经济智能经济 自动驾驶和电动汽车将颠覆汽车行业 智慧交通将大大提升通行效率 个性化教育将显著提升教学质量 精准预防性治疗有望延长人类的寿命 实时多语言翻译让交流再无障碍 精准药物试验可以显著降低新药研发成本,缩短发现周期 基于 AI 的电信网络的运维效率将大大提升 起步期数字化水平 车联网 自动驾驶 可预测性维护.医疗建筑食品饮料轨道交通公共安全油气化工电力教育机场政务汽车零售金融媒资通信互联网农牧业矿业与钢铁低高爆发期引领期 智能加油站 地质图像分析.自适应学习 教学和评分助手.智能客服 智能风控 智能投顾 推荐搜索 图像生成 智能客服 自动写稿 视频搜集 自动
23、加文字 智能营业厅 反欺诈 智能运维 无人超市 无人仓库 自动定价/推荐.安防机器人 犯罪案例预测 智能监控.客服机器人 无人驾驶行李车 机场安防.智能风机 巡检机器人/无人机 智能调度.智能医学影像 医疗机器人 智能药物研发.1514AI DC 白皮书一份给 CIO 规划建设智算数据中心的参考每个应用和软件都值得用 AI 重写生成式 AI 是革命性的跨越,有人称之为 AI 2.0,它不是 AI 1.0 的升级。AI 2.0 可以用无需人工标注的超级海量数据、去训练一个具有跨领域知识的基础大模型(Foundation Model),它能够从无到有,真正实现智慧的产生;AI 2.0 让每个人都能
24、创造,甚至可能让每个人成为程序员,催生了数字分身等长期以来仅存于想象的产品。AI 2.0 的生成能力还能将创新实现成本降到几乎为零,创造出更赚钱的商业模式。AI 2.0 的创造能力和商业能力,让智能时代的每个应用和软件都值得重写一遍。图 1-5 每个应用和软件都值得用 AI 重写一遍大模型智能对话短文创作图片生成视频生成商业文案代码开发结构化感知办公平面广告内容推荐网站制作内容搜索网络自治智能风控医疗咨询辅助诊断大数据分析公开数据集行业通用场景数据行业生产场景核心数据智能问答量化交易文档写作编程设计搜索文档摘要运营商金融医疗生物教育城市大脑社交消费智能客服新闻采编内容剪辑传媒分子生成智能教学营
25、销精准获客调研报告视觉语音语义生成海量离散小模型少数大模型汇聚进入通用业务场景使能大量通用软件进入生产系统使能行业核心软件应用为主催生现象级应用模型能力开放模型基础能力行业知识结合城市理想主义与现实主义交相辉映迈向 AGI2015 年,OpenAI 牵头启动的 AGI 实验,成为人类迈向通用人工智能(AGI)的一个新起点。随后,2020 年 GPT-3 的推出,以及 Scaling Law 被确立为 AGI 的第一性原理,标志着人类向 AGI 目标的探索步伐大大加快。为了支撑 AI 能力的持续进化,投资规模超过1000亿美元的星际之门计划启动,旨在构建更加强大的算力基础设施,预计 2028 年
26、将发布一个由数百万XPU算力卡互联的集群数据中心。理想主义者们相信,跨越技术裂谷的人工智能将加速前行,他们致力于在未来 10 年内将深度学习的计算能力提升 100 万倍。AI 领域的新论文、新模型层出不穷,从 Pretrain(预训练)到 SFT(监督微调),数据来源从公开网络扩展到合成数据,AI 的技术发展让所有人感受到了强烈的 推背感,人类终将走向 AGI。然而,我们也看到,AI 在面向消费者(ToC)的应用和面向企业(ToB)的行业落地中,依然面临诸多挑战。许多 AI 应用和项目仍处于起步阶段或短暂出现后便消失,实现商业闭环成为业界关注的焦点。对于人工智能产业的发展战略制定者来说,是选择
27、一路直冲,将 Scaling Law 推向极致,无限接近 AGI;还是 见好就收,尽快实现技术落地并盈利,快速融入商业社会,这是需要深思熟虑的问题。大多数新兴技术的发展都是从理想主义的美好愿景开始,同时受到现实主义的理性制约。如果能够将理想主义和现实主义相结合,无疑将加速技术的成功落地。我们认为,人工智能是一个不可逆转的大趋势。AI产业在垂直方向上,既需要科学家的理想主义,也需要与商业现实主义相结合,寻找技术驱动与商业落地之间的平衡。理想主义者的代表是工程师和科学家,他们基于科技改变世界的理想化出发点,用探索精神和创新思维,致力于开发更智能、更自主的学习算法,追求更高的计算效率和更低的能耗。这
28、些努力不断拓展 AI 技术的可能性边界,为现实应用提供了丰富的理论支撑和技术储备。而现实主义者的代表是理性的市场经济参与者,他们将 AI 技术视为推动商业变革和社会进步的关键力量,注重技术的实用性和经济效益,主要将AI 的商业化落地作为目标,使其融入金融服务、健康医疗、零售物流等行业场景。他们希望通过实践验证 AI 技术的市场价值,为持续发展提供应用场景和反馈数据,激发新的研究方向和创新灵感。AI 技术的演进历程正是理想主义与现实主义辩证关系的生动体现,二者相辅相成、交相辉映,共同塑造人工智能的未来。理想主义与现实主义产生了奇妙的双轮效应,每一次技术飞跃都会带动商业应用的创新与拓展,而商业成功
29、又会以更多的研究资金和资源反哺科研领域,推动技术的进一步成熟和完善。这种正向循环一旦建立,就能够帮助企业在采用新技术时实现新的价值链闭环。成功的案例将加速 AI 技术在各行业核心生产环节的渗透,推动一系列高效、智能的解决方案的形成,创造可观的商业价值和社会福利。图 1-6 理想主义与现实主义交相辉映推动 AI 发展AI 重塑行业的速度确实远超想象。2023 年初,比亚迪提出实现自动驾驶还需时日。仅仅一年多过去,自动驾驶技术的迭代升级已经悄然发生,2024 年中国新能源汽车市场中,自动驾驶功能的渗透率已超过51%。这一成就的背后是先进的感知系统、强大的计算平台、AI 驱动的决策与规划算法。AI
30、不仅仅能够助力一个行业,也可能颠覆一个行业。印度 IT 服务外包业曾凭借人力成本和语言优势成为全球中心。然而,AI 技术的兴起导致该行业面临严峻挑战。据统计,过去一年,印度五大 IT 服务公司裁员 69,197 人,创下 20 年新高。这一现象背后,是 AI 在服务领域的广泛应用,高效接管了原本由人力完成的任务。由此可见,AI 技术不仅仅能通过技术革命将一些行业带入新阶段,更能够淘汰替代一些相对落后的生产力方式。未来,我们完全有理由相信,AI 将有能力重塑每一个行业。理想主义理想主义现实主义现实主义1716AI DC 白皮书一份给 CIO 规划建设智算数据中心的参考All in AI 生成式业
31、务系统第 2 章企业发展 AI 的不确定性和确定性根据麦肯锡的调研,超过 70%的企业领导者预见 AI将在接下来的五年内深刻改变其业务格局。同时,企业发展 AI 有着相当大的不确定性,据德勤的数据显示,90%的大型企业计划投资 AI,但真正能够成功规模化部署的仅占 10%。这是因为生成式 AI 的革命性创新和内在局限性兼而有之。一方面,ChatGPT 对奥林匹克数学竞赛题可以给出优雅的证明;另一方面,在回答 13.11 和 13.8 比大小的试题中输给小学生。一方面,自动驾驶技术正在颠覆汽车行业,改变大众的出行服务;另一方面,提升辅助影像诊断的医疗专用模型仍旧在创新研究阶段。一方面,50 位艺
32、术家通过 AI 生成了首部充满创意的科幻电影;另一方面,很多企业还在被灵魂拷问:巨大的 AI 投资换来写作助手是否值得?模型回答质量的稳定性何时才能解决?对于企业来说,是追逐潮头引领行业革新、还是岸边试水等退潮的鱼?ChatGPT 等大语言模型带来的革命性变化,源于其汇聚世界知识带来的泛化能力,本质是显性知识的压缩和隐性经验的沉淀,是基于结构化数据发现内在规律的概率模型。各行各业尤其是头部企业,往往蕴藏着海量的数据、沉淀的业务知识和内化于业务流程的经验等宝贵资源,当它们被用于语料来训练 AI 模型时,模型自然就记忆了这些知识与经验。企业通过引入基础模型、行业模型并构建自己的私有化场景模型时,相
33、当于“一杯咖啡吸收宇宙能量”,可以更高效的传承和利用企业内部经验、行业经验、世界知识,从而实现企业可持续发展。企业最大的浪费是“经验和人才的浪费”。基于此理念,华为公司的企业 AI 从 1.0 向生成式 2.0 演进,AI 应用到更多的核心业务领域,从合同风险审计到支撑全球供应链在疫情中的韧性管理,从全球网络优化到提供互联网信息产品的极致体验,从专业又有温度的智能客服到海量高可信代码的生成等。华为 AI 2.0 的目标是实现“1 个顶级专家+AI 能力增强型数字员工+N 个普通员工”的效率等于甚至大于 N 个顶级专家。1918AI DC 白皮书一份给 CIO 规划建设智算数据中心的参考AI 大
34、模型带来的创新性机遇,源于科学范式的变化,从海量数据中发现未知规律。越来越多企业希望 AI能够基于核心生产场景,创造企业产品和服务的核心竞争力,先行者可以建立领先能力。比如特种钢的误差要求严苛,液面波动是炼钢的关键参数之一,结晶器液面波动与液面高度、水量、温度、压力、原材料批次等 200 多种参数相关,超过专家的经验和科学公式计算的适用范围。钢铁企业在思考如何利用 AI优化生产制造工艺,基于积累的高价值历史数据训练场景模型,并在实时生产过程中不断反馈增强,找到最优的液面波动参数。企业发展 AI 需要构建企业级综合智能体。如同一个架构先行将不确定挑战变成确定机遇构建企业级 All in AI 架
35、构的核心挑战可以归结为两个简单的几何图形:哑铃型的非稳定性结构和行业大模型的不可能三角。架构挑战之一:哑铃型的非稳定性结构。企业传统 IT架构是稳定的正三角,基础设施和技术平台稳定,变化频率低;数据和应用使能平台按照产品化、版本化的方式迭代,变化可预期;应用受用户体验驱动,更新需敏捷化高频。AI大模型时代,IT架构增加模型层,而模型因处于快速发展迭代期,变化幅度和升级频率均超过应用。如何规划设计 IT 架构,实现“在行驶中换发动机”?架构挑战之二:行业大模型的不可能三角。大模型在泛化性、专业性、经济性三方面很难兼得,泛化性强调基于小样本的场景化学习能力,专业性强调监督学习能力强,经济性强调模型
36、规模适中。同时,不同类型不同场景的大模型平衡点不同,如语言类参数量大、算力高,经济性要求高;产品质检视频类负样本少,泛化性要求高;风险预警类对精度要求苛刻而专业性要求高。由于行业数据的稀缺性,行业模型追求泛化性和专业性的矛盾尤其突出。模型多源:算力底座封装软硬件的复杂性,弹性资源调度解决算力效率,服务化的标准接口对接开放的模型层,支持来源多样的模型 三重进化:模型能力进行 API 封装,应用与模型解耦,形成可替换的“发动机”;L0 基础大模型随产业进化,L1 行业模型随行业模型市场、行业生态或集团中心云进化,L2 场景模型可以在企业侧微调进化 应用编排:业务从边缘、支撑型应用到核心生产应用,按
37、需组合交互理解(NLP)、感知(CV)、仿真预测、决策优化模型和检索能力,API 轻量式嵌入或助手型接入业务流程。企业发展 AI 的核心理念是:以架构的确定性应对模型的不确定性,形成具备持续开发态模型层的非常规稳定架构。应用层以 All in AI 为蓝图进行长远规划、小步迭代,基础设施和 AI 技术平台保持稳定,震荡中心的模型层分别与应用层和基础层实现解耦。企业最大的浪费:是经验和人才的浪费企业的持续成长性:一杯咖啡吸收宇宙能量1 海量数据沉睡2 沉淀的知识和经验的低效运用或流失1 吸收社会知识沉淀的能力决定企业持续成长能力2 走向世界走向开放,一杯咖啡吸收宇宙能量经验知识信息数据企业行业世
38、界图 2-1 企业发展 AI 的确定性能工巧匠,在解决复杂问题时,将书本学到的显性化知识和实践中积累的大量隐性经验相结合,并实现从感知、理解、预测分析到决策的闭环。我们欣喜地看到,AI大模型正将海量、多源、非结构化数据实现结构化,并贯穿感知、预测到决策全流程。当 AI 的视野从语言文字预测,延伸到声线、物体的色块、时序的采样、分子结构、调度网络负荷等更贴近现实世界的场景时,将为企业 AI 带来无限机遇。建议企业战略上要明确发展 AI 的确定性,战术上要应对好 AI 的不确定性。从现在开始、着眼未来,以All in AI 为战略,选择合适的节奏,并在生态模式上采取灵活战术,是企业发展 AI 的最
39、佳选择。2120AI DC 白皮书一份给 CIO 规划建设智算数据中心的参考边缘、支撑核心、生产产品设计、销售客服资产轨迹、视频质检销量预测、工艺控制制造供应链优化、电力运行监测、客户服务无人巡检、负荷预测、调度控制、政府一网办公、水文监测市民声音、污染源管理满意度评估、汛期预测交通优化、给排水优化交互理解场景化组合编排 算力集群知识资产 原子服务编排组合服务 行业使能学习进化能力行业模型市场 数据标注 数据资产 模型资产 感知APIAPI数据仿真预测检索决策优化统一资源管理算力调度AI 加速库训练推理工具链金融在线顾问、征信采集质押品监控、人脸鉴权风险评估、投资组合、可大规模复制“生成式”A
40、I 系统:与各行业应用分层解耦,能力封装,持续进化企业生成式 AI 系统:能力 API 二次封装算力底座模型组合:能力 API 一次封装NLP 大模型视觉大模型多模态大模型预测仿真大模型决策大模型产业进化可控的开放生态应对行业模型的不可能三角,构建按需组合的行业模型层。一方面拥抱标准和行业生态,保障按需融入与利用行业生态;另一方面建立企业的AI 应用金字塔结构,分类管理超级应用、头部应用、刚需应用、普通应用等,根据企业的竞争力策略、能力等,灵活选择自主开发、战略伙伴联合攻关和生态伙伴供应等不同模式,实现自建和共建生态模式的平衡。应用场景为纲,四位一体,实现价值三角企业发展 AI 的初期容易以模
41、型为纲,从技术出发,基于产业的基础大模型能力去“临摹”容易落地的应用,可能会导致应用、模型、算力基础设施的烟囱式发展。应用场景为纲的实质是从解决问题的第一性原理出发,场景是起点也是终点,是价值的闭环。不要先关注大模型本身和模型参数量,而要看是否能够解决过去解决不了、或解决不好的问题,是否能够实现收益大于成本的正循环,是否具备广泛的适用性和可复制性。在行业AI应用中为提高模型的解释性和确定性,常常采用 AI 模型与机理模型结合的方式。比如勘探中,AI 模型优化钻探位置的选择,机理模型则确保开采方案的物理可行性和安全。四位一体是指在实现应用场景价值闭环的过程中,应用场景、数据、模型和算力四个要素缺
42、一不可。场景是价值闭环的基础,低业务价值而又消耗大量算力的场景,就好像在非主业领域组建一个顶级专家团队;模型和数据如果不能很好匹配,如模型泛化性差又没有足够的样本,就会导致模型的专业性和精度不足,就像雇佣再多的实习生,也难以高质量地完成复杂的工作。四位一体落地时,分为技术三角和业务三角,实现技术和业务的解耦,便于建立平台化的技术架构。技术三角以算力为基础,实现数据的转换、清洗和加工,加速大模型的训练和推理,而包含知识与经验的广义数据支撑模型的训练和能力增强;业务三角以应用场景为原点,进行知识管理和经验结构萃取,不断丰富企业数据集,数据与模型双向交互,实现业务支撑和效果反馈,“非正常即异常”作为
43、最典型的例子说明了模型使用中对数据集的反馈和补充作用。(研发/营销/服务/制造/供应/财经/HR)(数据/信息/知识/经验)知识管理经验结构萃取千万倍训推算力使能业务反馈算法嵌入业务转换 清洗 加工采集、清洗、反馈、扩充数据、输入、外挂模型应用场景算力图 2-3 四位一体企业 AI 发展框架图 2-2 以架构开放支持进化中的百模千态企业进化行业进化数据2322AI DC 白皮书一份给 CIO 规划建设智算数据中心的参考从易到难,沿着企业价值流的方向,逐步深入核心和生产场景企业发展 AI 首先要梳理应用场景,建立“点线面”的场景地图。而 AI 业务价值三角,则可作为识别场景业务价值的经验范式和向
44、导。其中,通过 AI 助手提升业务效率和用户体验,是企业 AI 应用最基础和常见的方式,如办公、HR、客服等;当 AI 深入生产环节后,常常能够带来生产力和竞争力的提升,如在线顾问、工艺优化、需求和供应预测等;最后是对黑天鹅式低概率风险的防范,如业务连续性风控、财务风险识别等。企业落地 AI 需要积微成著。绘制场景地图时所谋者大、所思者远,不用局限在已知的模型能力、已就绪的数据中,要从企业业务发展战略、AI技术核心原理、行业发展趋势的角度构思和规划。制定实施路线图则需要从小处着眼、近处着眼,从一个个具体场景作为“小切口”入手,尽量让业务系统和流程不动或少动;基于具体场景做能力分解,组合感知、理
45、解、预测、决策等模型能力。任务的分解让问题的求解更容易,更有利于发挥全生态的能力,由少到多形成场景飞轮。业务连续性风控丨交易风控丨财务风险识别丨信息风险合规|供采制智能丨财经智能丨办公智能丨 HR 智能|智能产品|智能服务|智能销售|AI 业务价值三角防控关键风险业务效率和体验提升生产力和竞争力提升场景落地选择从三个维度入手:业务准备度、技术准备度和数据准备度。业务准备度衡量与场景相关的业务流程是否清晰、业务规则是否固化、业务组织是否有意愿和决心投入,是否有熟悉业务规则的专家投入;技术准备度衡量场景可能涉及的算法模型、装备服务、算力等是否完备,是否匹配价值期望;数据准备度衡量场景所需的数据量、
46、数据质量、数据分布、数据标注是否完备。场景选择的总原则是先易后难,先在实现较简单的高频、刚需场景小切口启动,快速找到智能化价值并同步培养人才,然后持续迭代、螺旋式发展。行业的引领型企业通常可以选择已具备相对充足的数据积累的领域,聚焦高价值的“超级场景”,如钢铁冶炼的“高炉场景”、化工的“中试场景”等,联合行业研究机构、AI 科技公司、大模型公司等联合攻关,一旦突破将释放巨大行业价值。图 2-4 场景选择的价值三角图 2-5 场景选择由易到难的路径协同模式(支持无缝集成与协作)效率模式(实现一致化、低成本的工作执行)创新模式(加强创造与构思能力)专家模式(充分利用专业知识)AI 场景实施框架经验
47、、数据复杂性四象限非结构化、容易丢失、大规模结构化、稳定可靠、小规模常规、可预测、基于规则临时、不可预测、基于判断 广泛延伸的互联型工作活动 高度依赖协调与沟通 原创、创新工作 高度依赖于深厚专业知识、试验、探索和创新 仅需少量人工判断的日常工作 高度依赖于定义完善且容易理解的标准 判断导向型工作 高度依赖于专业知识和经验 数据复杂性 经验复杂性场景2524AI DC 白皮书一份给 CIO 规划建设智算数据中心的参考语言大模型表现出强大的“内容生成”能力,不仅仅是人机对话、知识问答,还包括看图说话、情绪识别等非结构化信息生成结构数据的能力,工程设计、代码设计等非结构化强规则的文本生成能力。围绕
48、知识密集型场景,在语言大模型的延长线上出现了大量数字化助手类应用,如客服、代码开发、专业问题咨询、舆情分析、辅助设计等。长远看,随着基础模型的同质化和算力稀缺性缓解,个性化数据将决定企业 AI 的差异化能力。企业数据之道将延续,但治理结构也由于生成式 AI 的特点而变革。随着行业逐步理解这些需求,合适 成为了模型评估的新标准。“大”和“统一”不再是首要追求,不再单纯追求规模和参数数量,而是要根据实际需求做出权衡。大小模型各有所长,结合场景的多样性和复杂性,灵活运用不同模型成为了未来的趋势。模型的合适性与适用性变得比规模更为重要。但是,真实的行业问题并不能仅依靠语言大模型来解决。从智慧城市的内涝
49、预警、电动车充电起火风险预测、供水损耗控制,到工业工艺配方和过程参数控制,再到金融信用评估,都面临各自的“高炉问题”,需要将机理分析与 AI 模型结合起来,将感知、理解、预测、决策的多个模型结合起来,并考虑实时性要求和模型的经济性。行业+AI 的关键路口来临,并不在语言大模型的延伸线上数据之道延续,AIGC 治理结构变革,价值最大化从3个维度进行模型选择 保证业务效果优先 大模型不是越大越好 兼顾成本,合适最好 来源多样 模型与应用解耦 保证可持续升级演进010203效果成本迭代进化图 2-6 模型选择方法智能时代,数据作为企业战略资产的地位进一步加强,过程的、多维的、海量的细微原始数据,以及
50、顶端行业专家实践中产生的业务判断和执行结果成为最宝贵的资产。海量的历史、过程数据的存储不再是纯粹的成本,而是持续积累的 AI 资产。生成式 AI 导致数据安全治理结构发生体系性变革,模型记忆数据,模型生成数据,模型形成企业内外新的数据边界。大模型将数据、知识沉淀在模型的参数中,并且生成文本、视频、策略等数据,导致应用和数据的划分不再清晰,企业的数据边界控制难度增加,整合行业数据和本企业数据成为重要课题。沿着原始数据、训练数据集、AIGC 模型和模型服务的依赖链,以数据的原始保护等级为原则,在域间采用可溯源、可管理的访问控制。数据直接影响模型的表现,但数据适合轮盘式的发展。数据不搞大而全,要“先
51、易后难、以用促建”,从具体场景入手,基于具体场景模型效果不断对数据反向提出要求,获取更多数据,让模型效果越来越好,由小滚大形成数据飞轮。数据治理是数据质量的保障,最佳的治理是基于数据采集的源头式治理。在智慧城市、矿山、油田、工厂等大量行业场景中,涉及的终端、传感器、装备数量大、类型多,特别是多主体的场景中,通过统一智能终端和数据采集的标准规范,能够极大降低数据治理的成本。通过边缘推理与中心训练的协同,视频感知场景的异常自动标注,或者将数据标注的工作集成在业务人员的执行操作流程中,低成本地获得高质量的标注数据。数据即业务,数据价值的最大化作为数据治理总目标,AI 应用于全数据价值链,从数据再生产
52、、数据标识到规律发现。首先,模型应用于海量、异构数据的处理及数据产生,能够将各类异构数据,如图纸、视频监控、互联网舆情等转化为结构化的信息,为数据分析和风险评估提供坚实基础。其次,模型帮助实现可信、精准的数据跨部门共享,通过共享高阶数据,如视频中人或物的安全状态,实现数据可用不可见,确保在充分利用数据价值的同时,严格保护隐私和数据安全。最后,模型实现基于全域数据的预测和决策,各业务单元基于自身和关联主体的数据实现更准确的预测,能够发现更多、更复杂的规律。模型数据2726AI DC 白皮书一份给 CIO 规划建设智算数据中心的参考原始数据图 2-9 数据价值最大化0203海量、异构数据的处理及数
53、据产生AI 能够将各类异构数据(如图纸、视频监控、互联网舆情等)转化为结构化的信息,为数据分析和风险评估提供坚实基础。可信、精准的数据跨部门共享通过共享高阶数据(如视频中人或物的安全状态)实现数据可用不可见,确保在充分利用数据价值的同时,严格保护隐私和数据安全。各主体基于自身和关联主体的数据实现更准确的预测,能够发现更多、更复杂的规律。基于全域数据的预测和决策01内部数据热线 QA、流程文件、营销知识库.外部数据会计准则、开源代码、路测数据.原始数据与训练环境训练数据集与模型模型与用户人机交互文本生成视频生成跨模态生成音频生成 AIGC 模型策略生成图像生成数据知识训练数据集 AIGC 模型人
54、机交互用户Chat BoxCopilot Plugin图 2-8 AIGC 治理结构变革数据是企业的战略资产政策指引信息架构管理基于主业务流的信息价值链综合治理(数据、流程、IT):纵横打通+数据清洁战略到执行 信息价值链业务交易到核算 信息价值链产品创意到生命周期管理 信息价值链存量管理到问题解决 信息价值链流程管理信息架构管理数据质量管理数据分析组织公司数据 Owner数据管理部信息架构专家组IT主数据管理平台维度数据管理平台元数据管理平台数据质量管理工具公司数据管理总纲数据质量管理政策信息架构管理政策数据源管理政策数据质量管理主数据在交易打通维度数据在报告打通图 2-7 数据之道的延续2
55、928AI DC 白皮书一份给 CIO 规划建设智算数据中心的参考算力的选择也是技术路线的选择。AI 算力供应链的可持续是路线选择的前提,不仅要考虑硬件的长期可获得性,还要考虑软件栈的可持续性。大模型训练与推理过程中,模型参数规模从数十亿到万亿,这不仅要求算力平台具备强大的并行计算能力,也要求算子(执行基本运算任务的软件模块)具备高效的执行效率,从而最大程度释放硬件计算、内存访问、卡间通信的潜力。比如,华为 NPU 针对 AI 负载的矩阵计算框架进行了专门设计,更适用于卷积神经网络等类型的模型加速。值得注意的是,AI 算力芯片的支持不仅仅是硬件层面的问题,还需要有相应的开发者生态作为支撑,包括
56、开发工具链、软件库、框架支持以及开发者社区等。最后,算力路线选择需要兼顾训练推理的需求,从调度效率、开发效率等多维度考虑。参数面无阻塞通信网络RDMA训练数据(PB级)数据网络平面训练、推理节点-2训练、推理节点-N训练、推理节点-1SSDSSDSSDSSDNPUNPUNPUCPUCPUSSDSSDSSDSSDCPUNPUNPUNPUCPUSSDSSDSSDSSDCPUNPUNPUNPUCPU数据加速训练加速+推理加速存储集群化 AI 算力图 2-11 算力底座组件间高耦合和繁荣生态依赖大模型的开发与应用是一个复杂的系统工程,需要高度集成、内部硬软件高度耦合、外部提供标准化的接口的 AI 算力
57、平台来支撑,重点解决集群建设、模型训练、推理压缩、应用落地中的问题:集群建设:如何实现超大集群的高性能长稳运行?如何构建参数面的无损网络?模型训练:如何选择最高效的并行组合策略?如何实现多任务可视化调优?如何实现断点续训?如何预测大模型的扩展性和性能?推理压缩:如何实现分布式推理和推理加速?如何进行大模型的无损量化?应用落地:如何搭建大规模推理集群调度系统?如何进行防攻击设计?如何有效的进行故障恢复和隔离?算力集群建设难数据准备难模型训练难推理压缩难应用落地难集群建设与上线前期准备模型转换/优化模型预训练下游任务微调模型部署能力开放平台调度系统设计与优化开源数据私有数据模型结构设计计算系统设计
58、与优化能耗系统设计与优化网络设计与优化存储设计与优化代码调试代码调试在线推理API开发离线推理模型训练模型微调训练转换蒸馏剪枝量化图 2-10 大模型开发的工程难题方案 应用 模型 算法 算子 数据生态算力生态从可用到好用AI 平台应用对接SFTPrompt分布式训练框架AI 框架异构计算架构开发工具链数据管理推理模型开发与训练数据加速训练加速推理加速算力底座化、平台化,选择战略同行者3130AI DC 白皮书一份给 CIO 规划建设智算数据中心的参考服务运营数据市场安全模型市场运维运营业务价值链基础大模型 L0(CV,NLP,多模态)行业基础大模型场景化组合编排 资源与任务调度 多模态交互知
59、识资产数据生产力工具及平台知识检索数据资产模型生产力工具及平台识别诊断模型资产应用生产力工具及平台数据分析中枢决策内容理解设计生成业务和场景模型生态AI 基础设施AI+行业互联服务平台企业云 DC企业边缘 DC行业 DC公共 DC数据中心将被 AI 重新定义,提供多样性澎湃算力、使能百模千态和 AI 原生应用创新成为愿景目标。算力类型不再被机房基础设施限定、集群规模不再被通信网络限定、任务可以低约束地调度、算力资源可以跨数据中心共享,使算力跟上大模型扩展的步幅;支图 2-13 企业级 AI 架构持开放的模型生态,针对不同业务场景,提供灵活的模型挑选与组合服务,确保每项任务都能匹配到最适配的算法
60、模型组合;基于 Agent 的任务设计模式,融合企业和行业的知识资产、数据资产和模型资产,实现场景化的组合编排。以数据中心为中心信息时代,网络是主角,联接企业 IT 系统及万物;数字时代,云是主角,使能敏捷的应用开发;进入智能时代,算力成为主角,作为提供算力的数据中心,数据中心的规模性、算力效率和开发效率成为企业AI 的核心竞争力。当参数规模和数据规模越来越大,在算力供给受限和投资约束的情况下,数据中心的规模性、集群的有效算力、节能水平等成为企业模型开发和 AI 应用落地的关键因素。当企业发展 AI 时,预期价值闭环不是个别杀手级模型的低频次推理,而是在海量、重复、复杂的场景中,数以百计的场景
61、模型的高频使用。当一次普通的交互需要背后百亿次的运算时,数据中心效能的重要性显而易见。大模型的训练和推理成为最复杂的 IT 工程,数据中心正在成为企业数智基础设施的核心,成为企业 AI 商业价值闭环“投资收益不等式”中的重要系数。计算资源存储资源网络资源新体验新应用算力指数级增长X 4000“花钱”“赚钱”全球 AI 算力2020 年2030 年图 2-12 从成本中心到创新中心其效率成为企业 AI 效能的基础。数据中心不再是单纯的成本中心,而是创新中心。3332AI DC 白皮书一份给 CIO 规划建设智算数据中心的参考智能时代数据中心的发展与变化第 3 章数据中心走向智算数据中心 AI D
62、C数据中心机房互联网兴起大数据云服务智能时代DC云 DCAI DC智算数据中心1940-1990计算机时代1990-2010互联网时代2010-2020大数据时代2020智能时代传统数据中心:以 CPU 为中心 承载 AI 训练和推理 对等架构 多样算力,算力密度高,走向液冷智算数据中心:以 xPU 为中心 主要承载应用、数据 冯诺依曼主从架构 通算,算力密度低,风冷为主回顾过去几十年的发展历程,数据中心正走向智算数据中心。随着互联网的兴起,数据中心作为 IT 基础设施的核心载体开始规模出现。从 2010 年开始,随着大数据和云服务的迅猛发展,数据中心的架构随之发生变革。云计算模式的兴起使得数
63、据中心变得更加灵活和高效,能够按需提供计算资源和服务。到了 2020 年,人工智能的快速发展加速智能时代的到来,对算力的需求爆发式增长。智算数据中心应运而生,专注于提供 AI 模型训练和推理所需的高性能计算能力。如谷歌建设的机器学习中心,Meta打造的AI超级计算机,深圳专为深度学习设计的鹏城云脑 II 超级计算平台。图 3-1 数据中心走向智算数据中心 AI DCDDRPCIePCIePCIeCPU内存(DRAM)NICxPUSSD总线CPU内存(DRAM)NPUDPUSSD3534AI DC 白皮书一份给 CIO 规划建设智算数据中心的参考 传统DC:主要承载企业级应用和数据存储,如 We
64、b 服务、数据库管理和文件存储等常规信息处理任务。AI DC:主要承载 AI 模型的训练与推理,高效提供算力资源,并支持大数据集的处理。传统 DC:采用冯诺依曼的主从架构,其中 CPU 扮演指挥官的角色,负责分配任务给其他部件。这种架构在面对大规模并行计算任务时存在“计算墙”、“内存墙”和“I/O 墙”等问题,限制了性能的进一步提升。AI DC:采用更加先进的全互联对等架构,允许处理器之间,以及处理器到内存、网卡等直接通信,减少了中心化控制带来的延迟,突破主从架构的算力瓶颈,实现了高效的分布式并行计算。传统数据中心与智算数据中心存在以下几方面的差异:承载业务差异技术架构差异 传统 DC:以 C
65、PU 为中心,适用于一般性的计算需求。AI DC:以 xPU 为中心,提供并行计算,处理 AI 模型训练所需的大量矩阵运算。算力类型差异AI DC 主要承载 AI 模型的“训推用”AI DC 最主要的是要围绕 AI 模型训练、推理和应用来规划设计和实施。传统 DC:单机柜功率密度通常在 38 千瓦之间,可装载的服务器设备数量有限,算力密度相对较低,一般采用传统的风冷散热。AI DC:单机柜功率密度通常在 20100 千瓦之间,主要采用液冷或风液混合的散热技术。液冷能够更有效地带走热量,保证高性能计算设备的稳定运行。散热模式差异企业应用场景数据行业数据通识数据场景模型设计营销财务开发客服质检办公
66、.行业模型传媒广告医疗出行文旅游戏教育制造金融法律.基础模型多模态NLP.科学计算CV预测图 3-2 典型大模型应用之旅几个(海量通识数据集,每季/半年)(如客服、摘要、代码生成)场景模型及应用(如金融行业大模型)行业模型(行业商用/开源大模型)基础模型十几个(领域知识/行业经验,周/月)能源.终端营销 服务研发行政审计HR资金 税务 账务采购 供应 制造办公 客服 培训千万个(ToC 推理、中心推理、边缘推理)客户拜访纪要投标 SOC 答复课程摘要生成海关政策解读IT 工单摘要研发代码生成产线故障诊断HR 政策问答.3736AI DC 白皮书一份给 CIO 规划建设智算数据中心的参考大型互联
67、网企业和专注于大模型训练的模型公司,其AI DC 规划建设目标明确,即支撑基础模型预训练。这是一项大工程,需要超大规模集群的算力平台支持,还需要收集和处理万亿级别的 Token 数据,以确保模型能够学习足够的知识和技能。这种规模的训练不仅仅是技术上的挑战,更是对资源调配和系统运维管理能力的巨大考验。行业头部企业在 AI DC 规划时,重点是行业模型的二次训练。行业模型是基于基础模型,通过叠加大量特定行业数据进行增量训练而产生的。相比基础模型的训练,复杂程度有所降低,但仍需要数百到数千张 NPU/GPU 的算力卡支持,并需要处理数亿级Token 数据量。对于多数企业而言,AI DC 的建设重点在
68、于承载 AI模型的微调、推理及应用。鉴于 AI 应用的高度场景化特性,企业通常需要基于行业模型或基础模型,结合自身特有的场景化数据进行进一步的微调,从而使模型具备特定场景下的理解和生成能力,进而达到在实际业务环境中部署应用的标准。AI 推理的关键指标包括延迟(Latency)、准确性(Accuracy)、并发处理能力(Concurrency)以及算力使用效率(Efficiency)。根据推理服务的目标用户数量,如面向广大个人消费者的 2C 服务、面向众多企业的2B 服务或是仅限企业内部使用的应用,AI DC 的规划建设标准和技术要求也会有所不同。训练业务主体算力需求工程难度推理大型互联网运营商
69、大模型公司行业头部企业大型互联网大型企业分支/中小企大中型企业大中小企业预训练二次训练ToC 推理全参微调ToB 中心局部微调ToB 边缘超大规模千卡 万卡很高TP/DP/PP 并行,海量数据高基模选择,高质量数据较高十万 百万条指令集一般 万条指令集很高极致性能高融合高效较高灵快轻易大规模数百卡 千卡较小规模单机 8 卡起步小规模单机 1 卡起步超大规模千卡以上大规模数百卡 小规模数十卡AI DC 四大建设场景及三大类型根据不同需求,企业规划建设 AI DC 主要涵盖四大典型场景及用途。头部互联网公司、通信运营商及大模型厂商等,在建设超大型 AI DC,不仅用于基础模型的训练,还承担面向海量
70、消费者用户的推理业务。金融、电力等国计民生的重要行业头部企业,正在积极推进大型 AI DC 建设,用于行业模型的二次训练及中心推理业务。场景 1:全量预训练场景 3:二次训练+边缘推理场景 2:二次训练+中心推理场景 4:轻量化推理对于某些特定领域企业,尽管 AI 应用规模不大,但考虑到数据安全性和隐私保护的重要性,这些机构通常选择自建小型 AI DC,用于轻量化的推理任务及模型微调。例如,某三甲医院利用 AI技术进行医学影像分析,帮助医生更快速准确地诊断疾病,同时确保患者数据不出医院内部网络,增强了数据的安全性。在一些集团化运营的企业中,其总部通常会建立大型 AI DC 来进行二次训练及中心
71、推理,与此同时,在各个分支机构或靠近生产的地方,也会设置小型 AI DC 用于边缘推理及微调,从而构成了与企业整体组织结构相匹配的中心+边缘相互协同的架构,这种架构不仅能够充分利用资源,还能够实现实时决策,增强响应速度。综上所述,业界典型的 AI DC 主要有三大类:超大型 AI DC、大型 AI DC 以及小型 AI DC。二次训练+中心推理场景 2二次训练+边缘推理场景 3轻量化推理场景 4四大典型场景三类 AI DC全量预训练+ToC 海量推理场景 1超大型 AI DC大型 AI DC小型 AI DC头部互联网/运营商/模型公司等金融、交通、能源等国计民生行业头部企业医疗、教育等大中型企
72、业图 3-3 不同场景训练推理的算力需求及工程难度图 3-4 AI DC 建设场景及类型AI 模型分为基础模型、行业模型以及场景模型。其中,基础模型具备广泛的适用性,能够在多种任务上表现出色;行业模型在特定行业背景下进行优化,深入地理解该领域的专业术语和业务流程;场景模型针对具体的业务场景或问题进行定制化设计,精确地解决特定任务的需求,全面提升模型的专业化水平和服务能力。AI 模型的全面应用,是从训练到推理多环节紧密协作的过程。这个过程包括基础模型预训练、行业或企业模型的二次训练以及场景模型的微调,最终实现模型在实际环境中的部署与推理应用。每一步都对数据中心的技术能力和资源管理提出全新挑战。3
73、938AI DC 白皮书一份给 CIO 规划建设智算数据中心的参考为应对上述挑战,业界领先的超大型 AI DC 需要具备极致能效和极致算效的能力。一、超大型 AI DC 超大型 AI DC 主要承担基础模型预训练,面临以下主要挑战:超大规模 AI DC 的耗电量极为惊人。例如,一个拥有 10 万张智算卡的超大型 AI DC,其核心 IT 设备的电力需求超过 1 亿瓦(100MW),相当于 7.5 万户普通美国家庭的用电量,或是每小时熔化 150 多吨钢铁所需的电力。超大规模集群由成百上千万的器件构成,大模型的训练一般需要集群上百天 7x24 小时满负荷运转,导致光模块、NPU/GPU、HBM
74、内存等器件极易发生故障,而训练的同步性质使其对故障的容忍度较低,任何单点故障都可能导致训练任务中断,造成巨大经济损失。业界超万卡集群持续稳定运行仅数天,例如,Meta在其 16K 集群训练 Llama3 405B 模型时,54 天内发生了 466 次作业中断。故障恢复常常需要数小时乃至数天,严重影响了训练效率。随着 AI DC 计算、存储和网络设备的规模不断扩大,如何高效地整合这些资源以实现算力的最大化,成为了业界研究热点。首先,要实现大规模设备的有效互联,就需要解决网络架构、通信协议以及数据传输效率等多个方面的问题。这要求在网络设计上更加注重可扩展性、灵活性和可靠性,以确保设备之间能够高效、
75、稳定地进行数据传输和通信。其次,简单的设备堆叠并不能实现算力的线性增长,需要采用更加智能化的调度和管理策略,实现集群内计算、存储和网络资源之间的紧密协同。从当前业界的数据来看,即使是业界顶尖的千卡智算集群,其算力利用率不超过 60%,万卡集群不超过 55%,而十万卡集群更低,不超过40%,这进一步说明了提高超大规模集群有效算力的重要性和紧迫性。电力供应可靠性与故障恢复有效算力提升01020307综上所述,最终能够成功应对上述挑战的大型 AI DC,一般需要具备融合、高效的关键特征,以适应企业未来发展的需求。二、大型 AI DC 大型 AI DC 通常由行业头部企业规划建设,既要承担多种模型的训
76、练及微调任务,又要承担较大规模的中心推理以及 AI 应用,面临以下主要挑战:在确定的业务场景和确定的时延下,如何提供极致的推理性能。大型 AI DC 往往是企业来承担运维管理工作,如何能快速定位故障、修复故障是多数企业运维人员的共同诉求。一方面可帮助企业更快的将智能应用部署到实际生产环境中,缩短开发周期,从而在竞争激烈的市场中保持领先优势;另一方面可以节省成本和资源。对于金融、政府、电力等国计民生行业,某些场景有严格的 AI 输出要求,需要确保生成式AI 输出的内容是正确合规的。建一个大型的 AI DC,企业往往需巨额的资金投入,因此希望这些“宝贵”的 AI 算力资源尽可能多的利用起来,避免算
77、力资源的闲置。智算需要超过通算 10 倍的功耗、10 倍的布线规模,并且越来越趋向液冷散热,需要企业提前做好机房的规划准备工作,避免成为大型 AI DC 建设使用的瓶颈。当今企业应用创新的步伐不断加速,如何将多个模型灵活组合编排来满足应用快速创新的需求。推理性能优化降低 AI DC 运维难度高效的训练和微调如何应对生成式 AI 安全提升算力资源利用率高密供电、液冷散热等机房条件是否具备多模编排快速支撑 AI 应用创新0102050603044140AI DC 白皮书一份给 CIO 规划建设智算数据中心的参考综上所述,最终能够成功应对上述挑战的小型AI DC,需要具备“形态灵活、快速部署快速升级
78、、轻量极简、易维易用”等特征。三、小型 AI DC小型 AI DC 主要承担轻量级的推理及 AI 业务应用,有些还要求提供模型微调能力,一般建在贴近生产或靠近实际用户的地方,其建设面临的主要挑战是:小型AI DC贴近生产,往往需要和智能摄像头、传感器等感知终端直接连接,而这些暴露在外的终端也极易出现安全入侵问题,这种情况下如何确保小型 AI DC 的安全,也是必须解决的一个问题。安全保障小型 AI DC 受环境限制,所能提供的算力资源比较有限,因此必须要求在这有限的资源条件下,尽可能部署更多的业务应用。提升算力资源利用率01有些小型 AI DC 的位置相对较偏,甚至远离城区,这种情况下企业往往
79、希望提供一站式的部署,交付人员最好只跑一趟就能完成 AI DC 的部署。一站式部署02对于小型 AI DC,企业一般配备较少、甚至没有专门的运维人员来支撑,这就要求小型 AI DC 故障要少、日常运维极简,在出故障时,能够提供远程运维操作。便捷运维0304AI DC 五大特征变化从技术角度审视,应对各类AI DC所面临的挑战,构建领先的AI DC,需要在五大关键技术领域实现重大突破与革新。系统摩尔算力大小决定了模型能力上限。当前,大模型的能力上限尚未触及,Scaling Law 尺寸定律依然有效。预计到 2028 年,模型参数将达到数百万亿 数千万亿,如此大规模的模型训练需要算力规模和能力的进
80、一步突破,而当前主导算力发展的传统通算摩尔定律正遭遇物理学和经济学双重限制,致使传统的硅基电子技术临近发展极限,算力增长速度远远慢于算力需求的增长速度,算力裂谷越来越大,业界迫切需要新的算力供给方案,我们称之为“系统摩尔”。?图 3-5 典型 AI DC 的关键挑战及技术方向4342AI DC 白皮书一份给 CIO 规划建设智算数据中心的参考系统摩尔是华为最初在数据中心 2030报告中提出的概念,它定义为一种新的算力提升方法,主要依赖系统级架构创新、算存网深度协同、软硬深度协同来提升算力,满足指数级增长的算力需求。大创新新架构新网络新管理新计算新存储20192020算力需求巨大的 GAPAI
81、算力增长速度2017201520142013AlexNetVGGGoogleNetSEQ2SEQNeuralMachineTranslationAlphaGoZeroAlphaGoTl7 Dota 1v1DeepSpeech2ResNetvirtual Machineunderstanding Conv2012PFlops/每天20161e+4 1e+3 1e+2 1e+1 1e+0 1e-1 1e-2 1e-3 1e-4XceptionGPT-3图 3-6 智能时代加速而来,算力裂谷越来越大图 3-7 围绕系统摩尔的 5 大创新具备系统摩尔特征的 AI DC 算力供给方案,呈现出 5 大新特
82、点:一、新架构过去 70 年,计算机一直遵循冯诺依曼架构设计,运行时数据需要在处理器和内存之间来回传输。在人工智能等高并发计算场景中,这种传输方式会产生巨大的通信延迟,从而导致“通信墙”;而且目前内存系统的性能提升速度大幅落后于处理器的性能提升速度,有限的内存带宽无法保证数据高速传输,带来了“内存墙”。在此背景下,全互联的对等计算架构应运而生,它能够让 NPU、DPU、CPU、内存以及其他异构芯片之间实现高效的数据交换,打破传统计算架构的“通信墙”和“内存墙”等瓶颈,支持 AI等场景对跨主机高带宽、低时延的诉求,实现 DC as a Computer,算网存深度协同,通过系统级架构创新,充分释
83、放算力效能。二、新计算“新计算”主要体现在两个重要方面:首先,计算类型的演变。从以 CPU 为中心的通用计算,向以 GPU 和 NPU 为中心的智能计算转变。这种转变不仅适应了 AI 算法所需的大量并行处理能力,还大幅提升了计算效率和灵活性。并行计算技术,如同千军万马并驾齐驱,能够同时处理多个计算任务或数据块,极大加速了数据处理和计算过程,提高了计算资源的利用率和整体计算效率。通过并行计算,不仅能够缩短计算时间,还在更短的时间内完成更复杂的计算任务,从而更有力地推动了人工智能领域的发展。其次,芯片技术的进步。首先是 Chiplet 技术,不仅可以显著提高 Die 的良率,还能有效地降低成本,并
84、三、新存储在“新存储”领域,随着大模型的广泛应用,对高性能存储的需求日益凸显。特别是在 AI 训练过程中,高效的数据读写成为了提升整体训练效率的关键因素。在训练阶段,需要从存储系统快速加载样本数据到NPU/GPU,并定期将 Checkpoint 数据从 NPU/GPU 写回到存储系统中保存。因此,提升存储 I/O性能,缩短数据读写时间,成为了提高训练效率的重要手段之一。为此,NPU/GPU 直通存储技术应运而生。这种技术为 NPU/GPU 与存储之间提供了一条直接的内存访问传输路径,消除了原先涉及的CPU 内存缓冲和复制过程,从而大幅缩短了数据读写的时间。在推理阶段,尤其是在面对高并发、长序列
85、的推理场景时,业界提出了以 KVCache(键值缓存)为中心的多级缓存加速技术。这一技术能够显著提升大规模推理系统的吞吐性能,通过优化数据访问路径,确保数据能够快速、高效地被处理。总之,无论是训练过程中的 NPU/GPU 直通存储技术,还是推理过程中的 KVCache 多级缓存加速技术,都是为了在大数据量和高并发场景下,提升系统的整体性能和响应速度,从而更好地满足大模型应用的需求。且这种方法可以根据不同的产品规格需求灵活调整,实现更高水平的芯片性能。此外,与传统的封装板级互连方案相比,2.5D 封装技术能够将每比特的能耗降低大约一半,从而进一步提升了系统的能效比。4544AI DC 白皮书一份
86、给 CIO 规划建设智算数据中心的参考五、新管理新的管理模式必须具备跨域协同管理的端到端系统运维能力,涵盖计算、存储、网络、光模块设备的管理、控制以及分析等全生命周期运维管理。具体包括以下几个方面:全链路可视化监控:通过实时监控整个系统的运行状态,实现对计算、存储、网络等资源的全面监控,确保任何异常都能及时发现。跨域故障快速定位:利用先进的故障检测技术,快速准确定位故障点,减少故障排查时间,避免训练任务中断。跨域故障快速修复:建立高效的故障修复机制,确保一旦发生故障,能够迅速采取措施恢复系统正常运行,减少停机时间。通过这些措施,可以显著提升训练效率、降低训练成本,并确保大模型训练的快速、稳定和
87、高质量完成。这种全方位的系统运维管理能力是未来大型乃至超大型 AI DC 的核心竞争力所在。四、新网络网络作为连接计算和存储的关键纽带,在满足大规模计算集群的连接需求方面,正迅速向十万乃至数十万xPU(如 GPU、NPU 等)的互联演进。随着网络技术的发展,参数面网络的接入速率已从 200GE 提升至 400GE 乃至 800GE。大模型本身也在不断发展,从早期的张量并行、数据并行和流水线并行等分割方式,快速演进到 MOE(Mixture of Experts,专家混合)等更高级别的并行方法。这一演进对网络级负载均衡技术提出了更高的要求。为应对这一挑战,各大厂商纷纷推出各自的负载均衡解决方案。
88、例如,华为推出了与昇腾平台配套的动态 NSLB(全局负载均衡)技术。据测试结果显示,在 512 卡规模内,该技术能够提升 Llama2 13b 模型 13%的训练效率。总之,随着网络技术的不断进步和大模型的演进,网络架构和负载均衡技术也在不断创新,以满足更高性能和更大规模的算力需求。能基木桶AI DC 算力密度增长带来功率密度的急剧攀升,给供电、散热及布局等带来极大挑战,正在重塑数据中心能源基础设施。单位:kW 每机柜(典型值)23机房计算机时代DC互联网时代云 DC大数据时代AI DC智能时代35582050100超大容量电力供应的获取与匹配随着数据中心用电量的飙升,尤其是当单个数据中心用电
89、量跃升至 200MW 乃至 500MW 以上时,城市现有电力基础设施的瓶颈日益凸显。如 OpenAI的“星际之门”项目所预计的高达数千兆瓦的电力需求,已迫使数据中心选择跨越地域界限的电力供给解决方案。因此,如何高效、稳定地获取并匹配如此庞大的电力资源,成为了制约算力规模进一步提升的首要难题。挑战一挑战二超高密机柜的散热技术创新高功率密度带来的不仅仅是电力挑战,更对散热技术提出了严苛要求。液冷技术虽已成为行业共识,但面对未来更高功率密度的挑战,如何在确保可靠性和易维护的同时,提升散热效率,仍是亟待解决的关键问题。图 3-8 不同时代数据中心机柜的典型功率4746AI DC 白皮书一份给 CIO
90、规划建设智算数据中心的参考挑战三 优化数据中心布局:通过科学合理的规划与设计,确保电力供应、冷却系统与算力需求之间的高效协同,提升整体能效。提升能源使用效率:采用先进的节能技术与管理手段,降低能耗水平,实现绿色算力的发展目标。发展可再生能源与储能技术:积极利用太阳能、风能等可再生能源资源,并配套建设储能设施,提升数据中心的电力供给能力与抗风险能力。升级供电与制冷设备:紧跟技术发展步伐,不断引入更高效、更可靠的供电与制冷设备,提升数据中心的运行效率与稳定性。面对 AI DC 的能源基础设施挑战,需以创新的思维与前瞻的视角,积极探索并实践上述应对策略,在保障算力供给的同时,实现可持续发展与绿色转型
91、的目标。建筑空间分区的前瞻设计AI DC 的设计需兼顾 IT 机房、制冷设施与电力供应区域的复杂需求,打破传统设计模式,采用更为前瞻性的布局思路。这包括降低 IT 设施与机电设施的耦合度、实现机电设施的模块化与室外化布置、以及结合风冷与液冷技术的弹性配比设计。为避免能源基础设施成为数据中心发展的瓶颈,并减少由此产生的成本和资源浪费,需采取以下措施:迭代式平台相比于传统 DC,AI DC 规模更大、业务更为复杂且技术更新更快。因此,提供资源管理调度、支撑模型训练及 AI 开发,以及提供运维管理的 AI 平台面临极大的挑战,主要包括:AI 算力资源的高效利用:AI 服务器采购价格是传统通算服务器的
92、数倍,再加上 AI 对网络和存储设备提出了更高要求,使得 AI DC 建设成本高昂。这种情况下,如何管好、用好 AI 算力资源,让单位算力产出更大,就成了企业用户普遍关心的问题。AI 开发的高门槛和高成本:传统 AI 模型的泛化能力较差,面对不同的用户或数据源时,性能容易下降。缺少算法专家的企业难以完成模型的调试和优化,而即便大模型的泛化能力有所改进,但面对广泛的应用需求,算法专家的数量仍然不足,这就导致了 AI 应用开发成本高,开发周期长的问题,阻碍了 AI 技术全面服务于企业业务的各个领域。此外,模型维护也是一个持续性的挑战。0102 AI DC 运维运营难度大:AI DC 作为一种新型的
93、数据中心,缺乏具备管理大规模AI服务器,以及高性能网络和存储设备经验的运维人员,他们面临的问题包括合理的资源分配、变更管理、故障快速定位及恢复等。要解决这些问题,不仅需要运维人员个人能力提升,还需要有完善的运维运营工具来支撑。03为了应对上述挑战,需要一个能够持续迭代的 AI 平台,不断整合新技术和架构,以成熟的方式提供给用户,朝着性能更强、效率更高、运维更简、功能更全的方向发展。性能更强 优秀的 AI 平台应当持续引入这些技术,帮助用户提升性能并降低成本。数据并行、网络优化等技术有助于提高训练效率;量化压缩则提升了推理效率;PD 分离技术增强了长序列输出的性能;提示工程优化则能低成本地提升推
94、理准确率。效率更高 由于 AI 硬件成本高昂,提升算力集群利用率至关重要。通过优化存储方案和通信算法,可以克服并行训练中的瓶颈,提高数据传输效率,缩短训练时间。对于以交互为主的推理应用,平台应支持动态调度,如 API、定时及按负载扩缩容,以释放闲置资源。夜间空闲资源可用于微调训练,另外,平台还需提供安全隔离和灵活调度支持,确保业务连续性和资源的有效利用。功能更全 大模型应用开发已有多种模式,如 RAG 和Agent。AI 平台应提供相应的支持工具,比如数据工程模块简化数据预处理,模型开发模块降低训练门槛,Agent 开发模块则简化服务构建流程,共同提升开发效率并降低门槛。总之,未来的AI平台应
95、通过不断的迭代升级,提供更强大的性能、更高的效率、更简单的运维以及更全面的功能,以更好地支撑企业的 AI 业务发展。010204方向运维更简 大规模 NPU/GPU 和光模块使 AI 集群运维复杂化。新一代运维系统应具备全面监控、故障预测、智能分析等功能,提升硬件的无故障运行时间和集群效率。在推理环节,运维系统需监控硬件利用率等关键指标,识别低效作业并协助优化,以持续改进集群性能。03方向方向方向4948AI DC 白皮书一份给 CIO 规划建设智算数据中心的参考编排式应用随着数字化进程的加速,许多领先企业已拥有从几十到数百个应用不等。在过去的一年多时间里,AI技术的快速发展推动了“所有行业、
96、所有应用、所有软件都值得用 AI 重做一遍”的理念。与此同时,大模型的应用极大地改变了软件开发的方式,催生了一种新的编排式应用开发模式。面向未来,企业在智能化转型的过程中,将拥有成千上万的各种模型,如此庞大的模型库,导致未来企业必须通过编排式应用开发,才能快速响应企业的智能化改造需求,以促进业务创新。在编排式应用开发中,重要的是要充分利用大模型在理解和生成方面的能力,以及小模型在感知和执行上的专长,通过合理编排这两种模型,实现能力?编排式应用的构建与传统应用构建方式在构建主体、流程分解、实现形式以及处理形态等方面存在根本性的区别。在基于大模型的编排式应用构建中,业务工程师和系统工程师可以根据具
97、体的业务逻辑,通过自然语言提示的方式引导大模型对业务流程进行分解规划。这种流程处理依据大模型的规划结果进行实施,其形态也从固定的静态流程转变为更具灵活性的动态流程。未来的应用构建方式将更多地依赖于业务人员而非专业的开发人员,编排式应用模式的转变使得业务人员乃至最终用户自主构建智能体(Agent)应用成为可能。首先由一系列的小模型进行感知层面的数据收集与初步分析,随后将这些数据输入到大模型中进行深入的理解和生成。例如,在智慧城市管理中,可以通过人脸识别、车辆识别、异常行为检测等视频分析算法获取结构化数据,再将这些数据输入到自然语言处理(NLP)大模型中进行综合分析,帮助识别城市中的潜在风险因素。
98、大模型与小模型共同协作完成任务,先是大模型理解问题并生成具体的任务列表,接着调用多个小模型和大模型共同完成任务。首先由 NLP 大模型理解并分发任务,然后由小模型执行具体的任务。以眼科疾病诊断为例,NLP 大模型可以理解医生提供的患者病历资料,并据此规划出诊断流程,再将具体的眼部图像分析任务分配给计算机视觉(CV)模型来执行,从而生成诊断报告,形成一个高效的工作闭环,提高医生的诊断效率。实际上是对模式 A 和模式 C 的综合运用,即先由小模型进行感知层面的工作,再由大模型进行理解和生成任务,最后由多个小模型和大模型共同完成整个任务链。模式 A小模型感知,大模型理解小模型 1 .小模型 N大模型