谷歌推出了其目前表现力最强的Gemini3.1文本转语音模型，该模型可支持70多种语言-66安卓网

首页 → 热门资讯 → 软件教程 → 谷歌推出了其目前表现力最强的Gemini3.1文本转语音模型，该模型可支持70多种语言

谷歌正推出基于Gemini 3.1 Flash的全新文本转语音模型。据该公司介绍，这是其目前发布的声音输出最自然、表现力最强的模型。其中最主要的新特性是音频标签——通过简洁的文本指令，开发者可对生成语音的风格、节奏、语气及口音进行调控。该模型支持七十多种语言，还能处理多说话者的对话场景。

在人工分析的排名榜单中，这款模型的Elo评分达到1211分，凭借出色的性价比崭露头角。其整体质量不仅超越了Elevenlabs v3，还仅次于Inworld 1.5 Max。

Gemini 3.1 Flash TTS提供免费使用的套餐，不过谷歌会借助这些数据来优化自身产品。付费版本中，文本输入的费用是每百万代币1.00美元，音频输出则是每百万代币20.00美元。若使用批量模式，价格会降低一半，分别变为0.50美元和10美元。而在付费层级下，谷歌不会把这些数据用于产品改进。

Gemini 3.1 Flash TTS 目前可通过 Gemini API 进行预览，企业用户可借助 Vertex AI 使用，Workspace 用户则能通过 Google Vids 体验。此外，任何人都可以在谷歌的 AI Studio 中免费试用该功能。值得注意的是，所有生成的音频都会带有谷歌的 SynthID 水印标记，以此来标识 AI 生成的内容。

相关资讯

相关下载

浏览排行

游戏攻略: 更多+

1《蓝色星原旅谣》这款游戏里都有哪些职业可以选择呢？ 2《王者荣耀世界》伽罗技能全展示 3《生存33天》警长角色玩法攻略 4《洛克王国世界》兽花蕾技能教学全解析 5《漫威争锋》死侍女仆造型现已正式公布 6《原神》与脆脆鲨联动活动正式开启，欢迎分享相关内容 7《王者荣耀世界》战令系统详情说明 8《蚂蚁新村》4月9日今日答案已更新