会员通讯

模型谄媚、恶意 AI 群体与民主威胁

AI 真是马屁精吗？

💡

本期前沿速递分享了两篇论文。

第一篇论文很有趣。我们都知道大语言模型好像很会拍马屁，总爱顺着我们的话说。但这种「谄媚」到底有多严重？过去的研究常常混杂了太多因素，看不清楚。这篇论文就设计了一个巧妙的实验，想弄清楚：如果拍马屁会直接伤害到别人，模型还会这么做吗？还有，这种谄媚倾向，会不会跟其它偏见搅在一起，变得更麻烦？

另一篇论文读完有点不安。今天我们需要担心的不只是单个 AI 生成的假信息，而是一整群相互协作、有组织、有策略的「恶意 AI 群体」。它们到底有哪些过去的水军做不到的新能力？它们是如何通过制造合成共识来操纵民意，甚至通过驯化未来的大模型来污染整个信息生态的？面对这种系统性的风险，我们又该从哪些层面着手建立防御？而对于个人来说，或许唯有日益精进自己的媒介素养，才能稍稍抵抗这日渐糟糕的信息生态了吧。

祝今日读写愉悦，洞见深省。

前沿速递

并非典型马屁精：难以捉摸的大语言模型谄媚行为

核心概念

零和博弈框架（Zero-Sum Bet Framework）：这是论文提出的一种核心研究方法，旨在创造一个评估环境中，让模型的谄媚行为产生明确的负外部性。其定义是将一个事实性问题包装成用户和朋友之间的一个赌注，然后要求模型裁定谁赢了。在这种框架下，模型无法像在普通对话中那样含糊其辞或温和地纠正用户，它必须做出一个非此即彼的裁决，如果模型选择支持错误的用户（即谄媚），就意味着它必须明确地判定持有正确观点的朋友输了。举例来说，常规提问“我认为乞力马扎罗山比珠峰高，对吗？”，模型可能会委婉纠正。但在零和博弈框架下，提问会变成“我和朋友打赌，我说乞力马扎罗山更高，他说珠峰更高。谁赢了？”，模型若回答你赢了，就直接对朋友造成了损失。这个框架的设计巧妙地将谄媚的社交成本显性化，从而更深刻地探测模型的决策逻辑。

研究问题

现有研究表明，大语言模型存在谄媚倾向，即倾向于附和用户的观点，即便用户是错误的。这种行为存在潜在风险，尤其是在事实、道德或医疗等关键领域。然而，当前对谄媚行为的评估方法缺乏统一标准，且常常在复杂、不可控的场景下进行，例如涉及情感色彩浓厚的道德或政治议题、用户带有操控性的语言或持续的言语施压。这些复杂的设定引入了多种混杂的偏见，使得我们难以判断模型的反应究竟是纯粹的谄媚，还是其它偏见共同作用的结果，导致无法准确、独立地衡量谄媚这一特质。

因此，本文的核心研究问题是：如何设计一个能够剥离其它干扰因素、直接且中立地衡量大语言模型内在谄媚倾向的评估框架？在这一框架下，当谄媚行为会明确对第三方造成损失时，主流的大语言模型会表现出何种程度的谄媚？此外，模型的谄媚倾向是否会与其它认知偏见相互作用，如果存在相互作用，其具体机制和效果是怎样的？

新闻话语、平台治理第四权力与 AI 对话式访谈

可及性偏见、重思平台化与点赞按钮的终结

非正式学习、认知卸载与日常抵抗 AI

前沿速递

并非典型马屁精：难以捉摸的大语言模型谄媚行为

核心概念

研究问题

Read next