66安卓网:绿色免费的软件下载站! 手机游戏| 街机游戏| 新游| 人气手游| 最新更新

Mistral推出了全新的开源语音生成模型

来源: 66安卓网 日期:2026-04-26 10:07:05
首页热门资讯软件教程 → Mistral推出了全新的开源语音生成模型

法国AI企业Mistral在周四发布了一款全新的开源文本转语音模型,可应用于语音AI助手或客户支持等企业场景。借助该模型,企业能打造用于销售与客户互动的语音代理,这也让Mistral直接和ElevenLabs、Deepgram、OpenAI等公司形成竞争关系。

这款名为Voxtral TTS的新模型可支持九种语言,具体涵盖英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语以及阿拉伯语。

“我们的客户持续提出对语音模型的需求。为此,我们研发了一款小型语音模型,可适配智能手表、智能手机、笔记本电脑及其他边缘设备。其成本仅为市面上同类产品的一小部分,却能提供顶尖的性能表现,”Mistral AI的科学运营副总裁皮埃尔·斯托克在接受TechCrunch电话采访时表示。

Mistral称,新模型仅需不到五秒的样本即可完成声音自定义,还能捕捉到细微的口音、语调和语音流里的不规则之处等特点。该模型以Ministral 3B为基础,能在不同语言间顺畅切换且不丢失声音特征,这对配音或实时翻译等应用场景来说十分实用。Stock表示,公司期望该模型听起来更具人声质感而非机械感。

据公司介绍,这款模型是针对实时性能打造的。其首次音频时间(TTFA)——也就是模型在接收输入后开始“发声”的时长——在处理500字符的10秒样本时为90毫秒。此外,该模型的实时因子(RTF)达到6倍,这表示它能在约1.6秒内完成10秒片段的渲染。

今年早些时候,Mistral推出了两款转录模型,一款适用于大批量处理场景,另一款则针对低延迟的实时应用需求。而随着新语音模型的发布,该公司或许意在为企业打造一套完整的语音产品解决方案。

我们计划构建一个端到端的平台,能够处理涵盖音频、文本与图像的多模态输入流和输出流。该平台的核心优势在于,您可借助支持音频作为输入或输出的端到端代理系统获取更丰富的信息,Stock如是说道。

Mistral的定位在于,其开源特性与定制化功能能够助力企业选用它的语音模型,而非竞争对手的产品,原因在于企业可依据自身需求对该模型进行调整。

相关资讯
相关下载
游戏攻略
更多+