12月31日消息,近日,SuperCLUE-VLM多模态视觉语言基准测评12月总榜已正式公布。
谷歌的Gemini-3-pro以83.64分的成绩大幅领先,字节跳动的豆包大模型则凭借73.15分的表现进入前三名,这一结果凸显了国内大模型的强劲竞争力。
此次测评围绕基础认知、视觉推理、视觉应用这三个维度,对多模态大模型展开评估。
在此次测评中,位居榜首的Gemini-3-pro在基础认知、视觉推理、视觉应用三项细分指标上均展现出强劲实力,其基础认知得分达89.01分,视觉推理得分为82.82分,视觉应用得分79.09分,各项成绩均全面领先于其他参与测评的模型。
国内阵营里,商汤科技的SenseNova V6.5 Pro拿到75.35分,排在第二位;字节跳动的豆包视觉版紧跟在它后面,这款产品的基础认知得分达到82.70分,这个成绩甚至比一些国际竞品还要好,只是在视觉推理这一环节表现得稍微有些不足。
国内模型表现同样亮眼,百度ERNIE-5.0-Preview、阿里巴巴Qwen3-vl等均跻身前五,值得一提的是,Qwen3-vl作为榜单中首个开源模型,其总分还突破了70分。
在国际头部模型的评测中,Anthropic旗下的Claude-opus-4-5取得了71.44的分数,而OpenAI的GPT-5.2(high)仅获得69.16分,在排名上处于相对靠后的位置。
【