4月3日消息 美国科技企业微软于周四对外宣布,其内部研发的3款AI模型已正式开启大规模商用,这一举措体现出该公司正尝试摆脱对长期合作伙伴OpenAI的依赖。
具体而言,微软AI超级智能团队所开发的MAI-Transcribe-1、MAI-Voice-1以及MAI-Image-2这三款模型,覆盖了企业AI领域里商业价值最高的三项能力,即语音转录、语音生成与图像创建。
(微软首席执行官纳德拉宣布这项更新,
微软称,MAI-Transcribe-1在市面上常用的转录模型里准确率位居首位。在包含所有语言的测试中,它的平均错误率是3.9%;相比之下,OpenAI的GPT-Transcribe错误率为4.2%,Gemini 3.1 Flash则是4.9%。
MAI-Voice-1语音生成模型据称可以在“单块GPU”上实现不到一秒内生成60秒音频,并能在长内容生成中保持语音的一致性。
MAI-Image-2于3月19日首次发布,本周四它与另外两款模型一起正式开启大规模商用。在“大模型竞技场”的文生图项目排名里,该模型当前位列第三,排在它前面的是谷歌的热门模型Nano Banana 2和OpenAI的GPT-Image 1.5。
横向对比价格来看,MAI-Image-2的文本输入起步价是每100万词元(tokens)5美元,图像输出则从每100万词元33美元起。再看谷歌的模型,Gemini 3 Pro图像生成模型定价为每100万词元120美元,Gemini 3.1 Flash图像的价格是每100万词元60美元。
目标:自主开发世界前沿大模型
微软的最新行动始于去年10月,彼时公司与OpenAI重新调整了合作关系,使得微软能够独立或联合第三方合作伙伴去探索通用人工智能的相关权益。而在此之前的协议,尽管授权微软使用OpenAI的知识产权,却也限制其开发具有竞争性质的人工智能系统。
微软AI首席执行官穆斯塔法·苏莱曼公开表示,该团队到2027年的目标是“能够真正达到最先进水平”,涵盖能够响应或生成文本、图像和音频的模型。
苏莱曼介绍称,公司正在构建训练模型所需的算力,并从去年10月开始部署英伟达GB200芯片。
他说:“从那时开始,我们将在接下来的大约12到18个月内逐步提升,达到前沿规模的计算能力。”
作为谷歌DeepMind的联合创始人,苏莱曼在2024年加入了微软,主要负责把人工智能技术整合到微软的消费类产品中。在去年10月微软与OpenAI达成相关协议之后,苏莱曼于同年11月开始全职领导微软的AI超级智能团队。而就在上个月的内部架构调整中,苏莱曼的工作范围被调整为专注于模型开发,此前在Snap任职的高管雅各布·安德里欧则接手了微软面向企业及个人用户的Copilot助手产品业务。
苏莱曼向媒体表示:“我们希望着重指出,未来三到五年内提升自身顶尖AI技术水平、达成长期自主发展这一战略目标的重要意义。”他还补充道,公司也将持续为其他企业开发的模型提供托管服务。
从长期角度来看,微软对OpenAI的知识产权的深度访问权限将在2032年到期,因此发展自研大模型也是重要的风险对冲。
刚刚起步的微软自研模型业务也存在相当多的短板,足以见得苏莱曼的团队未来一年会有很多工作需要完成。
举例来说,MAI-Image-2现阶段仅支持1:1的纵横比,没有横向或竖向的选择,像其他AI应用里常见的图像到图像编辑、参考图像支持这类功能它都没有。MAI-Transcribe-1没办法区分对话里不同的发言者,也不支持上下文偏置和流式传输,不过微软提到这三项功能都正在开发当中。
【