默认极化、五个 AI 诱饵与问责幻象
AI 安全叙事有多少是真问责?
第一篇论文做了一个规模很大的实验,用 GPT-4o Mini、Claude Sonnet 4.5 和 Gemini 2.0 Flash 三个模型,在 Twitter/X、Bluesky 和 Reddit 三个平台上,跑了 54 万次内容推荐。以此来回答如果让大语言模型来决定你刷到什么,它的「品味」会不会有偏见?在所有测试条件里,极化程度是预测一条帖子能不能被推荐的最强信号。换句话说,模型天然地偏爱争议,哪怕你明确告诉它「请保持中立」,它依然会把两极分化的内容往前排。
第二篇是稍稍尖锐的政治经济学批判:作者认为我们围绕 AI 展开的很多批评和问责努力,本身可能就是一种「诱饵」。他们列举了五种诱饵——从关于 AI 定义的无休止争论,到科幻感十足的超级智能末日叙事,再到科技巨头主动拥抱监管的反常热情。这些讨论看上去都在认真对待 AI 的风险,但它们的共同效果是把公众的注意力从一个更根本的问题上引开:少数精英正在通过 AI 的旗号,以前所未有的规模重组全球资本和权力网络。
祝今日读写愉悦,洞见深省。
前沿速递
默认极化:审计基于大语言模型的内容策展推荐偏见
核心概念
间接歧视(Indirect Discrimination):这指的是一种偏见形式,即模型在决策时没有直接使用受保护的人口统计信息(如政治倾向、性别),但其选择标准(如帖子主题、用词风格)与这些人口统计特征高度相关,从而导致了对特定群体的不利结果。就好像一个招聘 AI 被禁止查看应聘者的性别,但它从数据中学到喜欢重金属音乐的人工作表现更好。如果男性比女性更喜欢重金属音乐,那么这个 AI 就会在无意中优先选择男性,尽管它从未看过性别这一栏。
提示词敏感性(Prompt Sensitivity):这指的是大语言模型的行为和输出结果在多大程度上会因为输入指令(即提示词)的微小变化而发生改变。高敏感性意味着模型的表现非常依赖于提问的方式。可以把它想象成一个非常听话但缺乏主见的孩子。如果你对他说找点好玩的东西,他可能会去拿玩具;如果你说找点有用的东西,他可能会去拿书。孩子的行为完全取决于你的指令。
默认极化(Polarization by Default):这个概念描述了大语言模型在没有被明确指示的情况下,仍然天然地、优先地选择和放大具有争议性和两极分化内容的内在倾向。这种行为是模型的出厂设置,而不是为了响应某个特定目标。
研究问题
大语言模型正被日益广泛地应用于内容策展和信息排序,例如社交媒体平台 X 和 Bluesky 已开始使用它们来构建用户的信息流。这一趋势将 LLM 固有的偏见与传统推荐系统的公平性问题结合起来,可能对公众获取信息的渠道产生深远影响。以往的研究已经揭示了传统推荐系统中的流行度偏见和人口统计偏差,也证实了 LLM 本身存在偏见,但现有工作大多局限于电子商务等领域,缺乏对社交媒体内容策展的系统性考察。此外,研究通常只关注单一模型,未能比较不同提供商之间的差异,也忽略了不同的推荐提示词如何影响偏见的表现,这使得我们不清楚哪些偏见是根深蒂固的,哪些又是可以通过调整指令来缓解的。
因此,本研究旨在探究一系列核心问题:基于 LLM 的内容策展系统存在哪些整体偏见,这些偏见又如何随着不同的提示词策略而变化?不同的 LLM 提供商在处理内容的极化、情感和毒性方面有何差异?最后,在 Twitter/X 平台上,这些系统如何表现出针对作者人口统计特征的偏见,其偏见的方向和强度如何?