阿里云推出多模态交互开发套件，助力硬件实现听、看、交互能力-66安卓网

首页 → 热门资讯 → 软件教程 → 阿里云推出多模态交互开发套件，助力硬件实现听、看、交互能力

1月8日举办的阿里云通义智能硬件展上，阿里云推出了一款多模态交互开发套件。这款套件整合了通义系列的千问、万相、百聆三款基础大模型，同时预先配置了十多款覆盖生活休闲、工作效率等领域的Agent与MCP工具。它具备听觉、视觉能力，还拥有思考能力并能与物理世界进行交互，可适配于AI眼镜、学习机、陪伴玩具、智能机器人等各类硬件设备。

随着多模态大模型的持续演进，这类模型已逐步拥有理解、感知以及与物理世界进行交互的能力，越来越多的硬件及终端设备厂商正尝试接入大模型，以此优化产品的交互体验。不过，单纯依赖基础大模型，依旧难以同时满足硬件设备在低成本、低时延、功能多样以及高质量效果等方面的综合需求。

阿里云多模态交互开发套件面向硬件企业与解决方案商，打造了一个开发门槛低、响应速度快且场景丰富的平台。在芯片适配方面，该套件已兼容30多款主流的ARM、RISC-V及MIPS架构终端芯片平台，能够满足市面上绝大多数硬件设备的快速接入需求。展望未来，通义大模型还将与玄铁RISC-V展开软硬全链路的协同优化，推动通义大模型家族在RISC-V架构上实现极致高效的部署与推理性能。

在模型优化方面，阿里云除了通义模型家族外，还对众多多模态交互场景展开分析，推出适配AI硬件交互的专属模型，全方位支持全双工语音、视频、图文等交互形式，端到端语音交互时延可低至1秒，视频交互时延能低至1.5秒。

此外，该套件预先配置了十多款MCP工具与Agent，涵盖生活、工作、娱乐、教育等多个领域。以预置的出行规划Agent为例，用户能够直接使用路线规划、旅行攻略、吃喝玩乐探索等功能。同时，该套件接入了阿里云百炼平台生态，用户既可以添加其他开发者提供的MCP和Agent模板，还能借助A2A协议兼容第三方Agent，从而大幅拓宽了应用的能力范围，助力企业灵活构建业务场景。

在活动现场，阿里云也呈现了针对智能穿戴设备、陪伴机器人、具身智能等领域的解决方案。以AI眼镜领域为例，依托千问VL、百聆CosyVoice等模型，阿里云构建起涵盖感知层、规划层、执行层以及长期记忆的完整交互链条，能够一站式达成同声传译、拍照翻译、多模态备忘录、录音转写等功能，切实交互生硬、回答精准度不高的问题。而在家庭陪伴机器人场景方面，借助千问模型与多模态交互套件，阿里云推出的解决方案不仅可以实时监测异常情况，并及时推送告警信息，用户还能够通过关键词搜索、定位视频，和机器人开展对话互动以及操控设备等操作。

根据国际权威市场研究机构Gartner发布的GenAI（生成式AI）技术创新指南系列报告，阿里云在GenAI云基础设施、GenAI工程、GenAI模型以及AI知识管理应用这四大维度，均处于新兴领导者象限。值得一提的是，阿里云是唯一一家在全部四项中都入选新兴领导者象限的亚太厂商，并且与谷歌、OpenAI等企业处于同一梯队。

相关资讯

相关下载

浏览排行

游戏攻略: 更多+

1梦幻西游五更寒看戏玩法指南梦幻西游五更寒BOSS击杀技巧 2王者荣耀改名卡的获取方法是什么，有没有免费领取的途径呢 3逆水寒手游职业怎么选攻略逆水寒手游藏宝阁位置在哪 4永劫无间里双节棍的科目四指的是什么？永劫无间中双节棍的同源武器都有哪些呢？ 5王者荣耀S38赛季的开启时间是什么时候？这个赛季会推出哪些新英雄呢？ 6三角洲行动里炮兵齐射需要按哪个按键？具体的释放步骤和操作方法是什么 7王者荣耀名侦探柯南联动皮肤的上线时间是什么时候，获取方式又有哪些呢 8炉石天马的领取方法与获取攻略