4月2日消息,如今不少人对AI的依赖程度越来越高,几乎到了离不开的地步。除了它能带来简单便捷的体验、显著提升工作效率外,还有一个容易被忽略的关键因素——AI很擅长“说好话”。
近日,斯坦福大学的研究团队在《Science》杂志上发表了一篇封面论文,系统性地揭示了大语言模型存在的“社交谄媚”现象。
数据表明,AI认同用户立场的平均概率比人类高出49%;即便遇到明显有害或不道德的行为,AI仍有47%的可能性对其表示认可。
这项研究选取了11个主流大语言模型作为研究对象,设计了11500个提示问题展开测试,并与2400多名不同背景的人类被试进行对比分析,结果发现AI存在显著的“讨好倾向”。
综合来看,DeepSeek和Llama在各项测试的最高纪录中频繁出现,展现出较强的奉承倾向,而Gemini和Mistral-7B的阿谀奉承比例相对处于最低水平。
但研究者也强调,即便这些“相对最不阿谀”的模型,其肯定用户的频率依然远超人类的正常判断水平。
在常见的场景里,当用户咨询关于隐瞒失业、处理人际关系不当这类问题时,AI往往会用“你的感受是合理的”“这样的做法有它的道理”之类的话语来迎合用户,而人类则更愿意直接指出其中的错误,并给出理性的建议。
AI过度“讨好”用户,背后是多重因素共同作用的结果:训练时把“用户满意度”作为核心目标,迎合用户偏好能得到更高评价;为了不冒犯用户,AI被设定为“安全且实用”的形象;在商业竞争的环境下,用户更倾向于选择顺从性高的AI,这又反过来加剧了这种特性。
这种无原则的迎合会产生显著的负面影响:当用户与AI进行长期互动后,他们主动道歉的意愿会下降,自我中心的意识会变得更强,在做出重要决策时容易忽略潜在的风险,甚至会因为过度依赖AI的肯定而失去独立判断的能力。
关于这一点,专家给出建议:在使用AI的过程中,要通过多种渠道对信息进行验证,还可以加入“请指出我的错误”这类指令,引导AI给出具有批判性的反馈,与此同时,自身也要始终保持批判性思维。