
Shawn Shen提出,AI要在现实世界中获得成功,就必须拥有记住它所看到事物的能力。Shen创办的Memories.ai公司正借助Nvidia的AI工具,为可穿戴设备与机器人打造能够存储并回想起视觉信息的基础架构。
Memories.ai于周一的GTC大会上宣布与半导体巨头Nvidia达成合作。借助此次合作,Memories.ai将运用Nvidia的Cosmos-Reason 2(一款推理视觉语言模型)以及Nvidia Metropolis(一款用于视频搜索与总结的应用程序),持续推进其视觉记忆技术的开发工作。
Shen(上图左侧)向TechCrunch透露,他与联合创始人兼首席技术官Ben Zhou(上图右侧)在参与构建Meta旗下Ray-Ban眼镜所搭载的AI系统过程中,产生了创立这家公司的想法。AI眼镜的开发经历让他们开始思考:当用户记不起自己录制的视频数据时,人们在现实生活里究竟该如何切实运用这项技术。
他们环顾四周,看看是否有人已经在为AI开发这种类型的视觉记忆解决方案。当他们找不到时,他们决定从Meta分拆出来,自己进行开发。
AI在数字领域的表现已然十分亮眼。可在现实世界里,情况又会如何呢?Shen如此问道。“AI可穿戴设备与机器人同样离不开记忆。……到最后,你会发现AI需要具备视觉记忆的能力。我们对这样的未来充满信心。”
AI系统拥有记忆能力从整体来看是一个比较新的领域。OpenAI于2024年对ChatGPT进行了更新,让它能够记住过往的对话,并且在2025年对这一功能做了微调。Elon Musk的xAI以及Google Gemini在过去两年里也都推出了各自的记忆工具。
但这些进展主要集中在基于文本的记忆上,Shen说。文本记忆更具结构性,更容易索引,但对于主要通过视觉与世界互动的物理AI应用来说并不那么有用。
Memories.ai成立于2024年,截至目前已累计筹集1600万美元资金,这笔资金来自2025年7月完成的800万美元种子轮融资以及另一轮800万美元的扩展轮融资。其中,该轮融资由Susa Ventures牵头领投,参与投资的还包括Seedcamp、Fusion Fund和Crane Venture Partners等投资机构。
Shen说,成功构建这个视觉记忆层需要两件事:构建嵌入和索引视频所需的基础设施,以便将其存储和回忆的数据格式,以及捕获训练模型所需的数据。
公司于2025年7月推出了其大型视觉记忆模型(LVMM)。Shen表示,该模型可与本月早些时候发布的多模态索引和检索模型Gemini Embedding 2相媲美。
为了开展数据收集工作,公司研发出LUCI这一硬件设备,供内部的“数据采集者”佩戴,专门用于录制训练模型所需的视频。Shen表示,公司无意转型为硬件企业,也不计划对外销售这类设备,之所以自主研发,是因为他们对市面上现有的视频记录器并不满意——这些产品往往过于追求高清画质,同时视频格式也较为耗电。
公司发布了这一LVMM的第二代,并签署了与高通的合作伙伴关系,将在今年晚些时候开始在高通的处理器上运行。
Shen表示,Memories.ai目前已与部分大型可穿戴设备企业展开合作,不过并未透露具体合作方。虽然当下存在一定需求,但Shen觉得可穿戴设备及机器人领域仍有更广阔的发展空间。
“在商业化方面,我们更专注于模型和基础设施,因为最终我们认为可穿戴设备和机器人市场会到来,但可能还不是现在,”Shen说。