本地部署 vs.云: 从云端到本地控制的 AI 部署之旅

来源: DataDirect Networks 作者:Sven Oehme 2024-08-16 09:19:49

企业越来越多地投资数千万美元来训练高级 AI 应用程序,尤其是大语言模型 (LLM) 和生成式 AI,以改善运营并创造新产品。然而,随着公司将这些模型在数据中心和云环境之间移动以进行测试和验证,成本不断攀升。随着 AI 越来越主流,一个紧迫的问题出现了:我们应该如何管理这些模型的资源密集型训练要求?

  
DDN的首席技术官 Sven Oehme 最近在《福布斯》上发表了一篇文章,讨论了部署选择,他的想法总结如下。

  

云部署的动荡:AI 部署困境

  

受到公有云的简单性、可扩展性和快速部署的吸引,许多企业采用了“云优先”或“仅用云”战略。然而,那些希望训练 LLM 或生成式 AI 的人经常会在某些云实施中遇到重大限制。监管要求、性能和延迟问题以及飙升的成本可能会使某些云部署变得不那么有吸引力甚至不切实际。知名超大规模云提供商的传统服务通常不适合这些工作负载,虽然这些提供商正在开发特定产品,但还有其他部署选项可能更适合资源密集型需求。

  

宇宙级复杂性:驾驭对 AI 基础设施的指数级需求

  

当今的 LLM 和生成模型比其之前的版本复杂得多。它们的规模大了近10 倍,所需的计算资源多了近 100 倍。这些模型处理数十亿甚至数万亿个参数,以实时生成复杂而准确的响应和预测。复杂性的指数级增长推动了对新型基础设施的需求,新型基础设施要能够提供必要速度、规模和敏捷性。

  
主要的云提供商如AWS、Azure 和 Google Cloud Platform (GCP) 等正在修改其基础设施战略以满足这些需求,但这些基础设施经常被过度分配。无论位于何处,AI 项目现在都需要基础设施更快、更具可扩展性和更安全,并且在任何规模下都有很高能效。

  

任务关键型还是临时型?预留和按需提供 AI 资源

  

采用独特方法的公有云提供商纷纷涌现,向超大规模云提供商发起挑战。Lambda、Scaleway、Bitdeer 等供应商提供不同的模式,以满足对其专用 GPU 云的各种需求:

• 预留模式:这些模式为最关键的 AI 部署提供专用的全栈资源,并保证服务水平协议 (SLA)。这些模式通常价格较高,但也意味着当 GPU 资源被完全分配时,客户不会遇到问题。

• 按需模式:按需提供 GPU 和强大的存储资源,这非常适合处理快速增长或波动的使用情况。虽然该模式更具成本效益,但如果在需要时 GPU 无法被满足,项目可能会延误。

  
这些 AI 专用云可满足需要强大计算能力和并行处理能力的应用程序的需求,与传统的超大规模云相比,它们具有更快的性能、更低的延迟和更低的成本。它们通常还具有专门的工作流程,以帮助简化 AI 训练工作负载的部署。

  

重返阶段:回归本地和主机托管

  

尽管云部署提供了灵活性,但许多 IT 部门正在重新评估其云战略。根据 IDC 的数据,70% 到 80% 的组织计划将部分计算和存储资源迁移回私有云或非云环境。InfoWorld 引用的一项近期Citrix 调查发现,93% 的 IT 领导者在过去三年中参与了云遣返项目。

  

休斯顿,我们遇到了问题:成本飞涨和性能滞后

  

企业回归本地部署或主机托管设施的部分原因是公有云成本的上升,随着全球疫情的消退,这一问题变得更加明显。企业必须存储和处理的数据量不断增加也增加了成本。此外,将数据移入和移出混合云环境可能会产生大量的数据出口费。根据 Uptime Institute 的数据,42% 的的企业表示近期将生产应用程序从云迁移出来的主要原因是成本。

  
性能是另一个关键因素。虽然公有云可以提供良好的性能,但云与本地或主机托管中心之间的数据传输速度可能会更慢。对于需要实时处理的应用程序(例如金融、航空航天、自动驾驶和生命科学领域的应用程序),这种延迟是不可接受的。

  

引力:本地部署AI 的案例

  

对数据延迟和安全性高度敏感的组织通常会发现本地部署的解决方案更可预测且更有效。随着基于 GPU 的服务器、并行文件系统和能够提供每秒 PB 级速度的光纤网络的进步,本地基础设施现在可以匹敌甚至超过云环境的规模和速度。此外,本地部署可以更轻松地满足合规性和数据主权要求,而且通常成本更低。

  

任务支持:DDN 在 AI 基础设施中的作用

  

DDN 在 AI 云部署和本地基础设施解决方案中都发挥着至关重要的作用。作为全球领先的数据智能平台,DDN 专注于 AI 存储解决方案,这些解决方案对于处理 LLM训练和部署的海量数据集和高吞吐量要求至关重要。我们的目标是增强世界上的所有数据工作负载,可靠地加速海量数据集,从而获得可操作的实时洞察。许多专业的 GPU 服务提供商利用 DDN 作为其后端存储来加速创新、节省成本和提高运营效率,并在大规模情况下提高安全性和可靠性。

  
面向 AI 云供应商的解决方案

• 可扩展存储解决方案:DDN 提供大规模可扩展存储解决方案,可与主要云提供商无缝集成。这确保了 AI 云供应商可以为其客户提供可靠的高速存储,从而支持 LLM 的大量数据需求。

• 高吞吐量:DDN 的存储系统专为高吞吐量而设计,这对于 AI 中的快速训练和推理过程至关重要。此功能可帮助云提供商满足其严苛的 AI 工作负载的性能需求。

• 数据管理:DDN 提供先进的数据管理功能,使云提供商能够高效处理大型数据集,确保数据可访问且安全。

  
优化本地 AI 部署

  

• 紧密集成的解决方案:DDN 与 NVIDIA 合作,确保 AI 基础设施得到完全优化。客户可以利用参考架构快速部署 NVIDIA 使用在其内部 Selene 和 Eos 超级计算机上的完全相同的设计方案。

• 数据主权与合规性:对于需要本地控制以满足合规性和数据主权要求的组织,DDN 提供的解决方案可确保数据在组织的控制范围内,同时提供必要的性能、效率和可扩展性。

• 增强性能:DDN 的存储系统针对 AI 工作负载进行了增强,可提供实时数据处理和 LLM 训练所需的低延迟和高吞吐量。使用 DDN 可减少数据密集型操作带来的等待时间,从而让客户在相同的基础设施上增加 30%的 GPU 处理时间。

  

任务汇报:探索 AI 部署前沿

  

训练大语言模型和其他 AI 系统会带来巨大的挑战和成本。随着企业应对这些复杂性,在云、本地和混合解决方案之间做出选择将取决于多种因素,包括成本、性能、监管要求以及其 AI 应用程序的具体需求。

  
DDN 等公司通过提供高性能存储解决方案,为增强云和本地 AI 基础设施提供了宝贵的支持。通过仔细考虑这些因素并利用合适的技术合作伙伴,企业可以做出明智的决策,平衡云的灵活性优势与本地基础设施的可控性和性能,确保成功将 AI 集成到其运营中。

  

0
收藏
0