
随着围绕即将推出的Vera Rubin图形处理单元的讨论热度持续攀升,人们很容易忽略英伟达公司并非只提供人工智能硬件这一事实。
这家公司也打造了专属的AI模型系列,今日正式发布了旗下性能最为强劲的一款模型。据介绍,Nemotron Super 3的设计目标是支撑复杂代理AI系统的大规模运行,它融合了顶尖的推理能力与迅捷的处理速度,能够高效完成对精度要求严苛的各类任务。
Nemotron Super 3是一款采用混合专家架构的1200亿参数开放模型。据英伟达介绍,该模型融合了三项创新成果,与上一代Nemotron Super模型相比,吞吐量提升最高可达五倍,准确性也提高了两倍。
根据英伟达的介绍,Nemotron Super 3的设计目标是解决代理AI系统在代表用户自动化复杂任务时面临的两大主要限制。第一个限制是内容量的激增。英伟达指出,多代理工作流产生的标记通常是标准聊天交互的15倍之多,这是因为每当用户与系统进行交互时,模型都需要重新传输包含工具输出和中间推理过程的上下文信息。
第二个限制被称为“思考税”。复杂的代理必须在完成任务的每一步进行推理,这意味着使用更大的模型是不切实际的,因为参数越多,处理成本就越高。大模型也比小模型慢。
为了避开这些难题,Nemotron 3 Super配备了100万标记的上下文窗口,这让它能在内存里留存完整的工作流状态,避免“目标偏移”,英伟达如此称。另外,在推理阶段——也就是运行已训练模型来对新数据生成预测或得出结论的过程中,它1200亿参数里仅有120亿处于活跃状态。
英伟达指出,Nemotron Super 3借助其Blackwell GPU以NVFP4精度运行,这一特性不仅降低了内存占用,还让推理速度较上一代Hopper平台提升至四倍之多。
Nemotron 3 Super可从build.nvidia.com、OpenRouter以及Hugging Face平台获取。与此同时,AI搜索引擎公司Perplexity Inc.不仅在其搜索引擎中集成了该模型,还将其应用于旗下的“计算机”AI代理系统。像CodeRabbit、Factory、Greptile这类生成式AI编码工具,也已把该模型纳入自身产品体系;而生命科学领域的Edison Scientific与Lila Sciences两家机构,则计划借助该模型,为数据科学研究、深度文献分析以及分子机制解析等工作提供支持。
包括Amdocs集团公司、Palantir Technologies Inc.、Cadence Design Systems Inc.以及Dassault Systèmes SA等企业,同样在借助Nemotron Super 3实现电信、网络安全、半导体设计与制造工作流程的自动化。此外,戴尔科技公司和惠普企业公司也会通过各自的代理中心,为用户提供该模型的访问服务。
Nemotron 3 Super的发布时间恰逢英伟达年度GTC大会前夕,这场大会将于下周3月16日拉开帷幕,届时公司预计会公布更多关于其下一代GPU平台的相关信息以及其他公告内容。