在NeurIPS 2025会议上,NVIDIA发布了一套包含自动驾驶、语音人工智能以及安全研究领域的全新开放模型、数据集与工具,进一步巩固了其在开放数字及实体人工智能开发领域的地位。
公司还获得了Artificial Analysis新推出的开放指数的认可,该指数将NVIDIA的Nemotron系列列为最透明的模型生态系统之一。
NVIDIA 发布了 DRIVE Alpamayo-R1,公司称其为“全球首个用于自动驾驶的开放推理 VLA 模型”。
NVIDIA应用深度学习研究副总裁Bryan Catanzaro表示,该模型将思维链推理与路径规划相结合,支持复杂道路场景和四级自主性的研究。
据英伟达方面介绍,AR1能够逐步对场景进行拆解,分析各种可能的轨迹,并借助上下文数据来确定行进路线。该模型的部分训练数据可以通过NVIDIA的Physical AI Open Datasets获取,同时模型本身也能在GitHub和Hugging Face平台上进行访问。
AR1依托NVIDIA Cosmos Reason开发,可针对非商业研究场景进行定制。NVIDIA指出,强化学习在模型后训练阶段成效显著,能有效提升推理性能,相比预训练版本有明显进步。同时,该公司还推出了AlpaSim——一个用于AR1评估的开放框架。
此外,NVIDIA 在《宇宙手册》中通过新工具和工作流程扩展了 Cosmos 生态系统,为模型后训练、合成数据生成和评估提供了逐步指导。
基于Cosmos的新系统包含LidarGen(一款用于生成激光雷达数据的世界模型)、Omniverse NuRec Fixer(用于修正神经重建过程中的伪影)、Cosmos政策(可将视频模型转化为机器人政策),还有ProtoMotions3(一个用于训练物理模拟数字人和机器人的框架)。
行业合作伙伴如Voxel51、1X、Figure AI、Foretellix、Gatik、Oxa、PlusAI与X-Humanoid,目前都在运用Cosmos世界基础模型。苏黎世联邦理工学院的研究人员在NeurIPS上展示了相关研究,呈现了Cosmos模型生成连贯三维场景的能力。
在数字人工智能领域,NVIDIA推出了Nemotron和NeMo旗下的新模型与数据集。具体涵盖MultiTalker Parakeet——这是一款适用于多说话场景的语音识别模型;Sortformer,一款日历模型;还有Nemotron内容安全推理,该公司称此推理采用了领域专属的安全规则。
NVIDIA还开放了Nemotron内容安全音频数据集,该数据集可用于检测不安全的音频内容。此外,NVIDIA还发布了合成数据以及强化学习工具,其中包括适用于强化学习环境的NeMo Gym,还有NeMo数据设计器库——该库目前已在Apache 2.0许可下开源。
CrowdStrike、Palantir与ServiceNow等合作伙伴,正借助Nemotron和NeMo工具开展专门的代理人工智能相关工作。