66安卓网:绿色免费的软件下载站! 手机游戏| 街机游戏| 新游| 人气手游| 最新更新

谷歌推出了其目前表现力最强的Gemini3.1文本转语音模型,该模型可支持70多种语言

来源: 66安卓网 日期:2026-04-26 20:42:08
首页热门资讯软件教程 → 谷歌推出了其目前表现力最强的Gemini3.1文本转语音模型,该模型可支持70多种语言

谷歌正推出基于Gemini 3.1 Flash的全新文本转语音模型。据该公司介绍,这是其目前发布的声音输出最自然、表现力最强的模型。其中最主要的新特性是音频标签——通过简洁的文本指令,开发者可对生成语音的风格、节奏、语气及口音进行调控。该模型支持七十多种语言,还能处理多说话者的对话场景。

在人工分析的排名榜单中,这款模型的Elo评分达到1211分,凭借出色的性价比崭露头角。其整体质量不仅超越了Elevenlabs v3,还仅次于Inworld 1.5 Max。

Gemini 3.1 Flash TTS提供免费使用的套餐,不过谷歌会借助这些数据来优化自身产品。付费版本中,文本输入的费用是每百万代币1.00美元,音频输出则是每百万代币20.00美元。若使用批量模式,价格会降低一半,分别变为0.50美元和10美元。而在付费层级下,谷歌不会把这些数据用于产品改进。

Gemini 3.1 Flash TTS 目前可通过 Gemini API 进行预览,企业用户可借助 Vertex AI 使用,Workspace 用户则能通过 Google Vids 体验。此外,任何人都可以在谷歌的 AI Studio 中免费试用该功能。值得注意的是,所有生成的音频都会带有谷歌的 SynthID 水印标记,以此来标识 AI 生成的内容。

相关资讯
相关下载
游戏攻略
更多+