Mistral推出了全新的开源语音生成模型-66安卓网

首页 → 热门资讯 → 软件教程 → Mistral推出了全新的开源语音生成模型

法国AI企业Mistral在周四发布了一款全新的开源文本转语音模型，可应用于语音AI助手或客户支持等企业场景。借助该模型，企业能打造用于销售与客户互动的语音代理，这也让Mistral直接和ElevenLabs、Deepgram、OpenAI等公司形成竞争关系。

这款名为Voxtral TTS的新模型可支持九种语言，具体涵盖英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语以及阿拉伯语。

“我们的客户持续提出对语音模型的需求。为此，我们研发了一款小型语音模型，可适配智能手表、智能手机、笔记本电脑及其他边缘设备。其成本仅为市面上同类产品的一小部分，却能提供顶尖的性能表现，”Mistral AI的科学运营副总裁皮埃尔·斯托克在接受TechCrunch电话采访时表示。

Mistral称，新模型仅需不到五秒的样本即可完成声音自定义，还能捕捉到细微的口音、语调和语音流里的不规则之处等特点。该模型以Ministral 3B为基础，能在不同语言间顺畅切换且不丢失声音特征，这对配音或实时翻译等应用场景来说十分实用。Stock表示，公司期望该模型听起来更具人声质感而非机械感。

据公司介绍，这款模型是针对实时性能打造的。其首次音频时间（TTFA）——也就是模型在接收输入后开始“发声”的时长——在处理500字符的10秒样本时为90毫秒。此外，该模型的实时因子（RTF）达到6倍，这表示它能在约1.6秒内完成10秒片段的渲染。