英伟达的人工智能研究团队推出了DreamDojo,这是一个开源的互动机器人世界模型。
它借助机器人电机控制技术,构建出像素模拟的未来场景;无需依赖引擎、网格,也不必进行手工创作的动态设计。英伟达人工智能总监兼杰出科学家吉姆·范将其命名为“仿真2.0”。
DreamDojo 是依托人类视频而非机器人数据来开展学习的。
范解释道,现实世界中机器人学习存在时间、磨损、安全以及重置等方面的瓶颈。而DreamDojo正尝试通过先向人类学习这一方式来该难题。
这个模型的预训练依托于44000小时的第一人称人类视频,全程没有机器人参与其中。这里提到的“潜在动作”,是直接从视频里推导出来的统一表示形式,它能捕捉世界状态之间的变化,并且不需要了解底层硬件。正是这种特性,让模型可以在任何第一人称视频上进行训练,仿佛这些视频本身就附带了马达指令一般。
第二步,模型会在特定机器人上开展后期训练,以此适配其硬件。范将这种方式描述为把“世界的外观与行为模式”和“该特定机器人的运作方式”区分开来。基础模型先掌握通用物理规则,之后再去适应机器人独特的机械构造。
DreamDojo的实时版本运行帧率为每秒10帧,连续滚动时长超一分钟仍保持稳定。该版本支持梦境内的实时虚拟现实远程协作、神经模拟器中的策略评估,以及基于模型的规划,这些功能均采用全球模型。
据范介绍,所有权重、代码、训练后的数据集、评估集以及白皮书均已公开。DreamDojo 基于 Nvidia Cosmos 搭建而成,而 Cosmos 同样采用开放权重模式。若需了解更多细节,可查阅项目页面与相关论文。