
英伟达公司今日推动了新兴的人工智能工厂趋势,正式发布Dynamo 1.0——这是一个开源平台,被该公司定位为大规模AI部署的核心软件层。
在公司于圣何塞举行的GPU技术大会上的这一宣布,针对企业AI中最具挑战性的问题之一:如何在大规模上高效运行日益复杂的生成和代理工作负载。
英伟达表示,推理的经济性正变得与模型的原始性能同样重要。公司看到一个快速扩展的软件市场,可以管理日益复杂的AI,英伟达副总裁伊恩·巴克说。
“随着我们在复杂性尺度上持续进阶,AI的价值、能力以及每百万个令牌的成本也在同步增长,”他表示。“诸如Dynamo这类软件堆栈为Vera Rubin NVL72上的模型提供了性能提升,达成了每瓦特10倍的吞吐量,或是令牌成本降低至原来的十分之一。”
Vera Rubin NVL72是英伟达在一月份宣布的新的机架级AI超级计算机平台。它旨在处理大规模的AI训练和推理。
Dynamo这类平台对英伟达而言意义重大,它能助力英伟达突破芯片、服务器与网络的局限,转型为可提供协调整个数据中心AI基础设施所需操作软件的供应商。Dynamo可应用于大规模的生成式推理与代理推理场景,并且能与各类主流的推理及编排框架实现集成。
Gartner公司专注于代理和AI基础设施、AI云和量子计算的分析师Chirag Dekate表示,开源Dynamo是英伟达“向上扩展护城河”的一个例证。
“推理正逐渐演变为软件编排层面的问题,所以谁能在大规模场景下做好路由、缓存与调度的管理,谁就能主导AI的经济模式,”他表示。“借助开源Dynamo,英伟达正在推行典型的标准化策略:减少应用门槛,吸纳生态系统合作伙伴,进而将其偏好的运行时模型转化为市场通行的默认操作模型。”
代理AI的兴起给基础设施和软件带来了新的复杂性和需求,因为新模型不仅与人互动,还以远超人类互动所需速度彼此互动。
英伟达将这类代理需求定义为“第四扩展定律”,它突破了预训练、后训练以及测试阶段的扩展范畴。“在一个代理既要和人类交流,又要与其他AI互动的场景下,对低延迟和大规模上下文推理的需求便随之提升了,”巴克如此表示。
这种转变使得基础设施的需求不再局限于简单的聊天机器人工作负载。巴克指出,代理模型“不仅需要将令牌交付速度提升15倍,模型规模也要扩大10倍”。他还表示,当前1000亿参数的模型,很快就会发展到10万亿参数的系统,且每秒能处理1500个令牌。
Gartner的Dekate表示,Dynamo致力于提升GPU集群的利用率,以此实现资源利用效率的最大化。“新兴的推理模型、多模态工作负载以及代理系统,让推理过程更具分布式特征,同时对延迟和成本也更为敏感,”他如此说道。Dynamo的计划器会对预填充与解码活动进行监控,并重新分配GPU资源;而其智能路由器具备KV缓存感知能力,能够有效减少重新计算的情况。
Dynamo同样适用于英伟达今日发布的更全面的AI代理软件体系。全新的代理工具包是一套“包含开放模型、运行时与蓝图的组合,可用于构建、评估并优化更安全、能长期运行的自主代理”,生成式AI软件高级副总裁Kari Briski如此表示。该工具包涵盖了用于模型推理的英伟达推理微服务,以及面向大规模生产场景的Dynamo。