每秒86万次的心跳:液冷闭环与跨国互联,托起全球最大AI算力心脏
发布日期:2026/4/27
今天在美国威斯康星州,微软推出了Fairwater,这是最新的美国人工智能数据中心,也是我们迄今为止建造的最大、最精密的人工智能工厂。除了在威斯康星州的Fairwater数据中心外,在美国其他地点有多个相同的Fairwater数据中心正在建设中。
在挪威纳尔维克,微软宣布与nScale和Aker合资公司合作开发一个新的超大规模人工智能数据中心。
在英国劳顿,我们宣布与nScale合作建设英国最大的超级计算机,以支持英国的服务。
这些人工智能数据中心是重大的资本项目,代表着数百亿美元的投资和数十万块尖端人工智能芯片,并将与我们覆盖全球70个区域的超过400个数据中心的微软云无缝连接。通过创新使我们能够将这些人工智能数据中心连接成一个分布式网络,我们以指数方式倍增了效率和计算能力,进一步在全球范围内普及人工智能服务的访问。
那么什么是人工智能数据中心?
人工智能数据中心(AIDC):AI时代的新工厂
威斯康星州芒特普莱森特微软新人工智能数据中心园区的鸟瞰图。
人工智能数据中心是一个独特的、专门建造的设施,专门设计用于人工智能训练以及运行大规模人工智能模型和应用。微软的人工智能数据中心为OpenAI、微软人工智能、我们的Copilot功能以及许多其他领先的人工智能工作负载提供动力。
威斯康星州的新Fairwater人工智能数据中心是一项非凡的工程壮举,占地315英亩,包含三座大型建筑,屋顶下总面积达120万平方英尺(约11.15万平方米)。建造该设施需要46.6英里(749.95公里)的深基础桩、2650万磅(12020.2吨)的结构钢、120英里(193.12公里)的中压地下电缆和72.6英里(116.84公里)的机械管道。
与典型的云数据中心(优化用于运行许多较小的独立工作负载,如托管网站、电子邮件或业务应用)不同,该数据中心被构建为一台巨大的人工智能超级计算机,使用单一平面网络互连数十万块最新的NVIDIA GPU。事实上,它将提供当今全球最快超级计算机10倍的性能,实现前所未有的AI训练和推理工作负载。
人工智能数据中心的作用——为前沿AI提供动力
有效的AI模型依赖数千台计算机协同工作,由GPU或专用AI加速器驱动,以处理大规模的并行数学计算。它们通过极快的网络互连,以便能够即时共享结果,所有这些都由庞大的存储系统支持,该系统保存着被分解为token(词元)的数据(如文本、图像或视频),token是AI学习的信息小单元。目标是让这些芯片始终保持忙碌,因为如果数据或网络跟不上,一切都会变慢。
AI训练本身是一个循环:AI按顺序处理token,对下一个token做出预测,将预测与正确答案核对并自我调整。这个过程重复数万亿次,直到系统在其被训练的任务上变得更好。可以把它想象成一支职业足球队的训练。每个GPU是一个正在演练的球员,token是逐步执行的战术,网络则是教练组,大声喊出指令并让每个人保持同步。球队一遍又一遍地重复战术,纠正错误,直到他们能够完美执行。到最后,AI模型就像球队一样,掌握了策略,准备好在真实比赛条件下表现。
前沿规模的人工智能基础设施
专门设计的基础设施对于高效地为人工智能提供动力至关重要。为了在领先AI模型的万亿参数规模上计算token数学,AI数据中心的核心由安装在服务器板上的专用AI加速器(如GPU)以及CPU、内存和存储组成。一台服务器托管多个GPU加速器,通过高带宽通信连接。然后将这些服务器安装到一个机架中,机架顶部交换机提供它们之间的低延迟网络。数据中心中的每个机架都互连,形成一个紧密耦合的集群。从外部看,这种架构看起来像许多独立的服务器,但在规模上,它作为一个单一的超级计算机运行,其中数十万个加速器可以并行训练一个模型。
该数据中心运行一个单一的、庞大的互连NVIDIA GB200服务器集群,以及数百万个计算核心和艾字节级存储,全部为最苛刻的AI工作负载而设计。Azure是第一个上线NVIDIA GB200服务器、机架和完整数据中心集群的云提供商。每个机架装有72个NVIDIA Blackwell GPU,在一个单一的NVLink域中连接在一起,提供1.8TB/s的GPU到GPU带宽,并使每个GPU都能访问14TB的池化内存。该机架不像几十个独立的芯片那样运行,而是作为一个单一的巨型加速器运行,能够以每秒865,000个token的惊人速度处理,这是当今任何云平台的最高吞吐量。挪威和英国的人工智能数据中心将使用类似的集群,并利用NVIDIA的下一代AI芯片设计,该设计每机架提供更多的池化内存。
建立超级计算机规模的挑战,特别是在AI训练需求持续需要突破性计算规模的情况下,在于让网络拓扑恰到好处。为了确保云环境中多层之间的低延迟通信,微软需要将性能扩展到单个机架之外。对于全球最新的NVIDIA GB200和GB300部署,在机架层面,这些GPU通过NVLink和NVSwitch以TB/s的速度通信,打破了内存和带宽障碍。然后,为了跨多个机架连接到一个pod中,Azure同时使用InfiniBand和以太网结构,提供800Gbps的带宽,采用胖树非阻塞架构,确保每个GPU都能以全线速与任何其他GPU通信而不会拥塞。在整个数据中心内,多个机架pod互连以减少跳数,并使数万个GPU能够作为一个全球规模的超级计算机运行。
微软数据中心中AI基础设施服务器的高密度集群。
当在传统数据中心走廊中布置时,机架之间的物理距离会引入系统延迟。为了解决这个问题,威斯康星州AI数据中心中的机架采用两层数据中心配置布局,因此除了与相邻机架联网外,它们还与上方或下方的额外机架联网。
这种分层方法使Azure与众不同。微软Azure不仅是第一个在机架和数据中心规模上上线GB200的云;我们正在大规模地将其与客户一起使用。通过与我们行业合作伙伴的最佳成果以及我们自己专门设计的系统共同设计整个堆栈,微软已经建造了世界上最强大、最紧密耦合的AI超级计算机,专门为前沿模型而设计。
解决环境影响:设施规模的闭环液体冷却
传统的空气冷却无法处理现代AI硬件的密度。我们的数据中心使用先进的液体冷却系统——集成的管道将冷液体直接循环到服务器中,有效带走热量。闭环再循环确保零水浪费,水只需要一次注入,然后持续重复使用。
通过设计专门建造的AI数据中心,我们能够将液体冷却基础设施直接建在设施中,从而在数据中心中获得更高的机架密度。Fairwater由地球上第二大的水冷式冷水机组厂支持,并将在其闭环冷却系统中持续循环水。热水然后通过管道输送到数据中心两侧的冷却“翅片”上,在那里172个20英尺的风扇冷却水并将其再循环回数据中心。该系统使AI数据中心即使在峰值负载下也能高效运行。
闭环液体冷却系统部分的鸟瞰图。
我们超过90%的数据中心容量使用此系统,仅在施工期间需要一次水,并持续重复使用,无蒸发损失。其余10%的传统服务器使用室外空气进行冷却,仅在最热的日子切换到水,与传统数据中心相比,这种设计大大减少了用水量。
我们还在许多现有的数据中心中使用液体冷却来支持AI工作负载;这种液体冷却是通过换热器单元完成的,这些单元也在零运营用水的情况下运行。
存储与计算:为AI速度而建
现代数据中心可以包含艾字节级存储和数百万个CPU计算核心。为了支持AI基础设施集群,需要完全独立的数据中心基础设施来存储和处理AI集群使用和生成的数据。举一个规模上的例子——威斯康星州AI数据中心的存储系统有五个足球场那么长!
专门用于为AI数据中心存储和处理数据的存储和计算数据中心的鸟瞰图。
我们为最苛刻的AI工作负载重新设计了Azure存储,跨越这些大规模数据中心部署,实现真正的超级计算规模。每个Azure Blob存储帐户每秒可以处理超过200万次读写事务,并且由于有数百万个帐户可用,我们可以弹性扩展以满足几乎任何数据需求。
这一能力的背后是一个从根本上重新架构的存储基础,它聚合了数千个存储节点和数十万个驱动器的容量和带宽。这使得能够扩展到艾字节级存储,消除了手动分片的需要,并简化了即使是最庞大的AI和分析工作负载的操作。
关键创新如BlobFuse2为GPU节点本地训练提供高吞吐量、低延迟访问,确保计算资源永不闲置,并且大规模AI训练数据集始终在需要时可用。多协议支持允许与各种数据管道无缝集成,而与分析引擎和AI工具的深度集成加速了数据准备和部署。
自动缩放根据需求增长动态分配资源,结合先进的安全性、弹性和成本效益的分层存储,Azure的存储平台为下一代工作负载设定了步伐,提供了所需的性能、可扩展性和可靠性。
AI广域网:连接多个数据中心以形成更大的人工智能超级计算机
这些新的人工智能数据中心是一个全球Azure AI数据中心网络的一部分,通过我们的广域网互连。这不仅仅关乎一栋建筑,而是关于一个分布式、弹性且可扩展的系统,作为一个单一强大的人工智能机器运行。我们的AI广域网具有以AI原生带宽规模增长的能力,能够支持跨多个地理分布的Azure区域的大规模分布式训练,从而允许客户利用一个巨型AI超级计算机的力量。
这是我们对AI超级计算机思考方式的根本转变。不再受限于单个设施的墙壁,我们正在构建一个分布式系统,其中计算、存储和网络资源跨数据中心区域无缝池化和编排。这意味着为客户提供更大的弹性、可扩展性和灵活性。
整合
为了满足最大AI挑战的关键需求,我们需要重新设计云基础设施堆栈的每一层。这不仅仅是孤立的突破,而是组合了跨硅片、服务器、网络和数据中心的多种新方法,实现了软件和硬件作为一个专门构建的系统进行优化的进步。
微软的威斯康星州数据中心将在人工智能的未来中发挥关键作用,建立在真实技术、真实投资和真实社区影响之上。当我们将该设施与其他区域数据中心连接起来,并且当我们基础设施的每一层作为一个完整系统协调一致时,我们正在释放一个云赋能智能的新时代——安全、自适应,并为未来做好准备。
来源:新能源网