3月17日消息,据智能纪元AGI于昨日(3月16日)的报道,前DeepSeek研究员、小米MiMo大模型负责人罗福莉联合北京大学发表论文,共同研发出统一的资源管理系统ARL-Tangram。
ARL-Tangram运用统一的动作级公式与弹性调度算法,既能满足异构资源约束,又能最大程度减少动作完成时间(ACT),还可实现定制化的异构资源管理器。
在真实世界智能体强化学习任务的评估中,ARL-Tangram 展现出显著效果:它能使平均 ACT 提升最多 4.3 分,让强化学习训练的步骤持续时间缩短达 1.5 倍,同时节省的外部资源最高可达 71.2%。
这是罗福莉在小米发表的第二份具备突破性技术成果的论文。去年10月,小米AI团队与北京大学合作发布了一篇围绕MoE与强化学习展开研究的论文,罗福莉的名字已出现在该论文中,这也是她在小米发表的首篇论文成果。
在2025小米人车家全生态合作伙伴大会上,罗福莉完成了入职后的首次公开亮相。她通过朋友圈正式宣布,自己已加入小米Xiaomi MiMo大模型团队。
智能终将从语言领域延伸至物理世界。此刻,我身处Xiaomi MiMo,与一群充满创造力、才华出众且满怀热忱的研究员并肩,共同为构建这样的未来而努力,全力追逐我们心中的AGI梦想!
【