2025-10-24 17:10:22
loading...

AI训练新时代:从集中式机房迈向分布式网络

摘要
一个新AI范式的黎明。 作者:Egor Shulgin,Gonka协议 随着AI技术的快速发展,其训练需求已超越单一物理位置的承载能力。面对这一挑战,研究人员正在探索如何协调分布在全球范围内的数千个处理器。答案在于更高效的算法——通过减少通信频率来实现分布协作。这一转变由联邦优化领域的突破推动,并在DiLoCo等框架中得到具体体现,使得通过标准互联网连接训练数十亿参数模型成为可能,为全球协作式AI开发开启了新篇章。 1. 起点:数据中心内的分布式训练 现代AI训
一个新AI范式的黎明。

作者:Egor Shulgin,Gonka协议8Fz比特币实时行情与区块链市场分析平台-好币网

随着AI技术的快速发展,其训练需求已超越单一物理位置的承载能力。面对这一挑战,研究人员正在探索如何协调分布在全球范围内的数千个处理器。答案在于更高效的算法——通过减少通信频率来实现分布协作。这一转变由联邦优化领域的突破推动,并在DiLoCo等框架中得到具体体现,使得通过标准互联网连接训练数十亿参数模型成为可能,为全球协作式AI开发开启了新篇章。8Fz比特币实时行情与区块链市场分析平台-好币网

1. 起点:数据中心内的分布式训练

现代AI训练本质上是分布式的。研究表明,扩大数据、参数和计算规模能够显著提升模型性能,但单台机器已无法满足训练基础模型(参数达数十亿)的需求。行业普遍采用“集中式分布式”模式,在单一地点建设容纳数千GPU的数据中心,并通过超高速网络(如英伟达的NVLink或InfiniBand)互连。这些专用互联技术比标准网络快几个数量级,使所有GPU能够作为一个整体系统运行。8Fz比特币实时行情与区块链市场分析平台-好币网

在此环境下,最常见的训练策略是数据并行,即将数据集拆分到多个GPU上。(其他方法如流水线并行或张量并行则将模型本身拆分到多个GPU上,适用于训练最大型模型,尽管实现复杂。)以下是使用小批量随机梯度下降(SGD)的一个训练步骤:8Fz比特币实时行情与区块链市场分析平台-好币网

  • 复制与分发:将模型副本加载到每个GPU上,将训练数据分割成小批量。
  • 并行计算:每个GPU独立处理一个不同的小批量,并计算**梯度**——即调整模型参数的方向。
  • 同步与聚合:所有GPU暂停工作,共享它们的梯度,并将其平均,以产生一个单一的、统一的更新量。
  • 更新:将这个平均后的更新量应用到每个GPU的模型副本上,确保所有副本保持完全一致。
  • 重复:移至下一个小批量,重新开始。

这一过程依赖频繁通信,只有在数据中心内部昂贵、高速的连接下才可行。这种对频繁同步的依赖,是集中式分布式训练的典型特征。8Fz比特币实时行情与区块链市场分析平台-好币网

2. 撞上南墙:巨大的通信瓶颈

为了训练最大的模型,组织需要在不同城市或大洲建立多个数据中心。然而,地理上的分隔带来了巨大障碍。那种在数据中心内运行良好的逐步同步算法,当扩展到全球范围时便失效了。8Fz比特币实时行情与区块链市场分析平台-好币网

问题的核心在于网络速度。数据中心内部的InfiniBand传输速度可达400 Gb/s或更高,而连接远程数据中心的广域网(WAN)速度通常接近1 Gbps。这种几个数量级的性能差距源于距离和成本的基本限制。小批量SGD所假设的近乎瞬时的通信与这一现实格格不入。8Fz比特币实时行情与区块链市场分析平台-好币网

这种差异导致了严重瓶颈。当模型参数必须在每一步后都进行同步时,强大的GPU大部分时间处于闲置状态,等待数据缓慢地穿越低速网络。结果是:AI社区无法利用全球范围内分布的海量计算资源——因为现有算法依赖高速、集中式的网络。8Fz比特币实时行情与区块链市场分析平台-好币网

3. 算法转变:联邦优化

如果频繁通信是问题所在,那么解决方案就是减少通信。这一简单的见解引发了一场借鉴联邦学习技术的算法转变。联邦学习最初专注于在终端设备(如手机)上的去中心化数据上训练模型,同时保护隐私。其核心算法联邦平均(FedAvg)表明,通过允许每个设备在本地执行多次训练步骤后再发送更新,可以将所需的通信轮数减少几个数量级。8Fz比特币实时行情与区块链市场分析平台-好币网

研究人员意识到,在同步间隔之间做更多独立工作这一原则,是解决地理分布式设置中性能瓶颈的理想方案。这导致了联邦优化(FedOpt)框架的出现,它采用双优化器方法,将本地计算与全局通信解耦。8Fz比特币实时行情与区块链市场分析平台-好币网

该框架使用两种不同的优化器:8Fz比特币实时行情与区块链市场分析平台-好币网

  • 内部优化器(如标准SGD)在每个机器上运行,在其本地数据切片上执行多次独立的训练步骤。
  • 外部优化器处理不频繁的全局同步。在经过多次本地步骤后,每个工作节点计算其模型参数的总变化量,这些变化被聚合起来用于调整下一周期的全局模型。

这种双优化器架构从根本上改变了训练动态。它不再是所有节点之间的频繁通信,而变成了一系列延长的、独立的计算期,之后跟随一个单一的聚合更新。8Fz比特币实时行情与区块链市场分析平台-好币网

以下为联邦优化框架示意图:AI训练新时代:从集中式机房迈向分布式网络8Fz比特币实时行情与区块链市场分析平台-好币网

图片来源:Charles, Z., et al. (2025). "Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo." arXiv:2503.097998Fz比特币实时行情与区块链市场分析平台-好币网

4. 突破性进展:DiLoCo证明其大规模可行性

答案以DiLoCo(分布式低通信)算法的形式出现,它证明了联邦优化对于大语言模型的实际可行性。DiLoCo提供了一套具体的、经过精心调优的方案,用于在低速网络上训练现代Transformer模型:8Fz比特币实时行情与区块链市场分析平台-好币网

  • 内部优化器:AdamW,在每个工作节点上运行多次本地训练步骤。
  • 外部优化器:Nesterov动量,处理不频繁的全局更新。

实验表明,DiLoCo能够匹配完全同步的数据中心训练性能,同时将节点间的通信量减少高达500倍。这是通过互联网训练巨型模型可行的实践性证明。8Fz比特币实时行情与区块链市场分析平台-好币网

开源实现OpenDiLoCo复现了原始结果,并利用Hivemind库将该算法集成到一个真正的点对点框架中。这一努力促成了多个组织的大规模预训练成功,展示了通过互联网预训练数十亿参数模型的可能性。8Fz比特币实时行情与区块链市场分析平台-好币网

5. 前沿探索:先进技术与未来研究

DiLoCo的成功激发了新一轮的研究热潮,专注于进一步提升效率和规模。关键一步是DiLoCo缩放定律的发展,确立了DiLoCo的性能可随模型规模增长而稳健缩放。8Fz比特币实时行情与区块链市场分析平台-好币网

为了处理更大规模的模型,研究人员扩展了DiLoCo的设计,例如结合流水线并行的DiLoCoX。此外,创新还包括流式DiLoCo(重叠通信和计算以隐藏网络延迟)和异步方法(防止单个慢速节点成为瓶颈)。8Fz比特币实时行情与区块链市场分析平台-好币网

算法核心层面也出现了创新,例如新型内部优化器Muon催生了MuLoCo,允许将模型更新压缩到2比特且性能损失可忽略不计。8Fz比特币实时行情与区块链市场分析平台-好币网

6. 信任挑战:开放网络中的治理

随着训练转向开放、无需许可的网络,信任问题浮现:参与者如何验证收到的更新是否合法?如何防止恶意行为?拜占庭容错和密码学技术(如零知识证明)正成为解决方案。8Fz比特币实时行情与区块链市场分析平台-好币网

前瞻:一个新AI范式的黎明

从高墙耸立的数据中心到开放的互联网,这段旅程标志着人工智能创建方式的深刻转变。这场根植于联邦优化并由DiLoCo具体化的算法变革,证明了减少通信频率是关键。随着技术进步和信任挑战的解决,去中心化训练正从工程解决方案演变为更开放、协作和可访问的AI未来的基础支柱。8Fz比特币实时行情与区块链市场分析平台-好币网

参考文献8Fz比特币实时行情与区块链市场分析平台-好币网

McMahan, H. B., et al. (2017). Communication-Efficient Learning of Deep Networks from Decentralized Data. International Conference on Artificial Intelligence and Statistics (AISTATS).8Fz比特币实时行情与区块链市场分析平台-好币网

Reddi, S., et al. (2021). Adaptive Federated Optimization. International Conference on Learning Representations (ICLR).8Fz比特币实时行情与区块链市场分析平台-好币网

Jia, H., et al. (2021). Proof-of-Learning: Definitions and Practice. IEEE Symposium on Security and Privacy.8Fz比特币实时行情与区块链市场分析平台-好币网

Ryabinin, Max, et al. (2023). Swarm parallelism: Training large models can be surprisingly communication-efficient. International Conference on Machine Learning (ICML).8Fz比特币实时行情与区块链市场分析平台-好币网

Douillard, A., et al. (2023). DiLoCo: Distributed Low-Communication Training of Language Models.8Fz比特币实时行情与区块链市场分析平台-好币网

Jaghouar, S., Ong, J. M., & Hagemann, J. (2024). OpenDiLoCo: An Open-Source Framework for Globally Distributed Low-Communication Training.8Fz比特币实时行情与区块链市场分析平台-好币网

Jaghouar, S., et al. (2024). Decentralized Training of Foundation Models: A Case Study with INTELLECT-1.8Fz比特币实时行情与区块链市场分析平台-好币网

Liu, B., et al. (2024). Asynchronous Local-SGD Training for Language Modeling.8Fz比特币实时行情与区块链市场分析平台-好币网

Charles, Z., et al. (2025). Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo.8Fz比特币实时行情与区块链市场分析平台-好币网

Douillard, A., et al. (2025). Streaming DiLoCo with overlapping communication: Towards a Distributed Free Lunch.8Fz比特币实时行情与区块链市场分析平台-好币网

Psyche Team. (2025). Democratizing AI: The Psyche Network Architecture. Nous Research Blog.8Fz比特币实时行情与区块链市场分析平台-好币网

Qi, J., et al. (2025). DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster.8Fz比特币实时行情与区块链市场分析平台-好币网

Sani, L., et al. (2025). Photon: Federated LLM Pre-Training. Proceedings of the Conference on Machine Learning and Systems (MLSys).8Fz比特币实时行情与区块链市场分析平台-好币网

Thérien, B., et al. (2025). MuLoCo: Muon is a practical inner optimizer for DiLoCo.8Fz比特币实时行情与区块链市场分析平台-好币网

Long, A., et al. (2025). Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism.8Fz比特币实时行情与区块链市场分析平台-好币网

声明:文章不代表好币网观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
币圈快讯
查看更多
热门币种
BTC比特币
105,239.09 USDT
¥755,174.66
+0.76%
ETH以太坊
2,517.54 USDT
¥18,065.36
+0.25%
USDT泰达币
1.00000 USDT
¥7.18
+0.01%
XRP瑞波币
2.15 USDT
¥15.44
+0.13%
BNB币安币
646.71 USDT
¥4,640.66
+0.96%
SOLSolana
145.58 USDT
¥1,044.65
+1.24%
USDC
0.99980 USDT
¥7.17
+0.01%
TRX波场
0.27410 USDT
¥1.97
-0.11%
DOGE狗狗币
0.16830 USDT
¥1.21
-0.18%
ADA艾达币
0.59440 USDT
¥4.27
0%
查看更多
回顶部