谷歌推出了Gemini 3.1 Flash Live,这是其目前最优秀的语音与音频AI模型。它能为开发者带来更迅速的响应速度、更自然的对话体验以及可灵活配置的思维层级。谷歌表示,该模型在音调与情绪检测方面表现更为出色,在嘈杂环境下也更为可靠。目前,这款模型已在Gemini应用中支持直播模式。
根据Artificial Analysis的数据,该模型在Big Bench Audio基准测试中,“高”思维模式下评分达95.9%,仅次于Step-Audio R1.1 Realtime(97.0%),响应时间为2.98秒;而在“最低”状态下,质量评分降至70.5%,响应时间则缩短至0.96秒。
该模型借助 Gemini Live API、Google AI Studio、Gemini Live 以及 Search Live 这几个渠道,在全球200多个国家和地区提供服务。它的定价和 Gemini 2.5 前代产品保持一致,音频输入每小时0.35美元,音频输出每小时1.40美元,这让它跻身最便宜的音频AI模型行列。而性能略好一些的Step Audio型号,虽然输入成本更低,但输出成本相对更高。