Microsoft推出了Rho-alpha这一全新的视觉语言动作模型,其目标是使机器人拥有更强的适应性、更敏捷的响应能力,以及在真实场景中执行任务的能力。
这家科技巨头本月初在一篇博客文章里公布了生成式人工智能视觉-语言-动作(VLA)模型,该模型脱胎于Microsoft的Phi开放模型系列。
Rho-alpha 将自然语言指令转换为执行作任务的机器人控制信号。
Microsoft指出,在模型训练过程中,他们融合了物理演示与仿真手段,同时采用了基于开源Nvidia Isaac Sim框架搭建的多阶段强化学习流程。
为了提升感知能力,Microsoft还增添了触觉感知功能,让机器人可以凭借触觉对环境作出反应,而非仅仅依赖视觉输入。
在未来的版本中,Microsoft表示计划加入力感和其他技术。
博客文章里的视频演示呈现了Rho-alpha借助自然语言指令,与微软研究院近期发布的物理交互基准测试BusyBox展开交互的过程。
Microsoft的模型发布之际,越来越多的行业正开启机器人应用,从局限于特定任务的部署模式,逐步向更动态、非结构化且往往以人为核心的环境拓展应用范围。
这一转变促使人们更加关注那些让机器人能够更自主地推理和行动的模型。
在这样的背景下,Microsoft把Rho-alpha定义为更具灵活性与适应性的机器人AI系统,从而让它相比传统模型在各行业拥有更多的部署机会。
物理系统中VLA模型的问世,让系统得以和人类一同进行感知、推理与行动,”微软研究加速器公司副总裁兼董事总经理Ashley Llorens在介绍该模型的博客文章里如此说道。
Rho-alpha目前正在双臂机器人系统与类人机器人上开展评估工作,Microsoft计划在未来数月内发布该型号的技术说明。
该型号最初将通过抢先体验计划提供,未来计划在 Microsoft Foundry 提供更广泛的可用性。