
英伟达公司推出了六种以上专门针对自动驾驶系统打造的人工智能模型,可应用于自动驾驶汽车等场景。
这些算法在开源许可下发布,并在今天于拉斯维加斯举行的CES电子展上首次亮相。它们与多个开发工具以及名为Jetson T4000的机器人计算模块一同推出。
英伟达新推出的开源AI模型系列中最引人注目的是Alpamayo 1(如图所示),这是一种被称为视觉-语言-动作(VLA)算法的模型,拥有100亿个参数。它能够利用自动驾驶车辆摄像头捕捉的画面生成驾驶轨迹。
Alpamayo 1拥有链式思维机制,这表明它能够把接收到的导航任务拆解成更细小的环节。按照英伟达的观点,这种方式有两方面的优势:其一,Alpamayo 1能够对自身推理过程的每个步骤进行说明,让评估导航决策的合理性变得更简单;其二,链式推理机制有助于模型处理复杂的驾驶状况。
这个模型并非设计用于直接在自动驾驶车辆上运行。英伟达的思路是,开发者能够借助它来训练自动驾驶车辆的导航模型。按照该公司的表述,此算法可应用于评估自动驾驶软件可靠性之类的任务。后续,英伟达打算推出规模更大的Alpamayo模型,从而为更多样的推理应用提供支持。
“Alpamayo为自动驾驶车辆带来了推理能力,使它们能够在复杂环境中安全驾驶,并解释其驾驶决策——这是安全、可扩展自动驾驶的基础,”英伟达首席执行官黄仁勋表示。
Alpamayo 1与英伟达现有的Cosmos系列世界基础模型的三个新增模型一同提供。与Alpamayo 1一样,这些新模型可用于开发自动驾驶汽车的软件。它们还可以为其他类型的自动系统提供支持,包括工业机器人。
前两个模型,Cosmos Transfer 2.5与Cosmos Predict 2.5,主要用于为机器人的AI软件生成训练数据。这些训练数据呈现为合成视频画面。比如,Cosmos Transfer 2.5能生成展示汽车工厂里工业机器人的片段;Cosmos Predict 2.5具备类似功能,还能模拟物体未来的行为——用户可以上传一张公交车的照片,让模型模拟出五秒后公交车的位置。
Cosmos模型系列的第三个新成员被称为Cosmos Reason 2.0。根据英伟达的说法,它可以为机器人提供分析其环境画面并自动执行动作的能力。
Cosmos Reason是Isaac GR00T N1.6的驱动核心,这是英伟达今日发布的另一款新模型。Isaac GR00T N1.6与Alpamayo 1同属VLA模型范畴,但它并非针对自动驾驶车辆优化,而是专门为驱动人形机器人设计。英伟达的研究团队在一个包含双手机器人、半人形机器人及人形机器人传感器测量数据的数据集上,完成了该算法的训练工作。
“Salesforce、Milestone、日立、Uber、VAST Data与Encord正借助Cosmos Reason为交通及工作场所生产力AI代理提供支持,”英伟达生成AI软件副总裁Kari Briski在博客文章中表示。“Franka Robotics、Humanoid和NEURARobotics则利用Isaac GR00T对机器人新行为进行模拟、训练与验证,之后再推进生产扩展。”
英伟达专注于机器人的算法与一对更通用的模型系列一起推出,称为Nemotron Speech和Nemotron RAG。前者系列的亮点是一个语音识别模型,公司称其性能是可比替代品的10倍。Nemotron RAG包括嵌入和重排序模型。
嵌入模型将数据转化为AI应用程序理解的数学表示。重排序是RAG,即检索增强生成工作流程中的一个步骤。在AI应用程序使用RAG检索到回答提示所需的文件后,重排序模型会突出显示最相关的文件。
英伟达的AI模型还搭配了三款同样以开源许可形式提供的开发工具。首款工具AlpaSim,能让开发者搭建模拟环境,用于训练自动驾驶模型。这款软件可对交通状况、模拟车辆的传感器阵列等细节进行自定义设置。为了提升训练难度,开发者还能加入传感器噪声,以此测试其AI模型过滤错误数据的能力。
英伟达还推出了第二个模拟框架,名为Isaac Lab-Arena。该框架的目的是简化机器人AI模型的训练任务。据该公司介绍,Isaac Lab-Arena让开发者可以借助Robocasa等流行的第三方基准来衡量AI模型的性能,而Robocasa主要用于评估家用机器人。
软件团队可以使用英伟达的第三个新工具OSMO来管理他们的模拟工作负载。它是一个协调器,也适用于管理其他AI开发工作流程,如合成数据生成管道和模型训练任务。英伟达表示,OSMO可以在公共云和开发者工作站之间协调工作负载。
制造商可以使用一个新的英伟达计算模块,称为Jetson Jetson T4000,为他们的机器人提供动力。它基于公司的Blackwell图形处理单元架构。例如,一个工业机器人制造商可以使用该模块运行其系统的AI驱动的工厂车间导航软件。
Jetson T4000配备64GB内存,在处理FP4数据时算力可达1200 TFLOPS,也就是每秒能完成1200万亿次计算。这一性能表现让它比英伟达上一代机器人模块快了四倍。对于采购量不低于1000台的客户,Jetson T4000的售价为1999美元。