谷歌正推出基于Gemini 3.1 Flash的全新文本转语音模型。据该公司介绍,这是其目前发布的声音输出最自然、表现力最强的模型。其中最主要的新特性是音频标签——通过简洁的文本指令,开发者可对生成语音的风格、节奏、语气及口音进行调控。该模型支持七十多种语言,还能处理多说话者的对话场景。
在人工分析的排名榜单中,这款模型的Elo评分达到1211分,凭借出色的性价比崭露头角。其整体质量不仅超越了Elevenlabs v3,还仅次于Inworld 1.5 Max。
Gemini 3.1 Flash TTS提供免费使用的套餐,不过谷歌会借助这些数据来优化自身产品。付费版本中,文本输入的费用是每百万代币1.00美元,音频输出则是每百万代币20.00美元。若使用批量模式,价格会降低一半,分别变为0.50美元和10美元。而在付费层级下,谷歌不会把这些数据用于产品改进。
Gemini 3.1 Flash TTS 目前可通过 Gemini API 进行预览,企业用户可借助 Vertex AI 使用,Workspace 用户则能通过 Google Vids 体验。此外,任何人都可以在谷歌的 AI Studio 中免费试用该功能。值得注意的是,所有生成的音频都会带有谷歌的 SynthID 水印标记,以此来标识 AI 生成的内容。