提示词扰动、类人偏见与守门机制
大模型做问卷也会产生顺序偏见吗?
第一篇论文研究的是,我们能把大语言模型当成可靠的调查对象吗?如果稍微改动一下问卷的措辞或者选项顺序,它们的回答会不会也像人一样摇摆不定呢?这篇对于希望用 AI 做研究的人来说,是一个非常重要的提醒。
第二篇论文关注的是 AI 训练数据的源头问题。研究者们比较了权威新闻网站和虚假信息网站,想看看这两类网站在禁止 AI 爬虫的比例、禁止爬虫的数量和种类、以及采取主动技术屏蔽的行为上有何不同?从一个很小的技术切口 robots.txt,揭示了一个关乎未来信息生态的大问题,再结合今天维基百科的新闻,不得不怀疑这一切对于所谓 AI native 一代到底是礼物还是泥沼。
祝今日读写愉悦,洞见深省。
前沿速递
提示词扰动揭示大语言模型调查回答中的类人偏见
核心概念
提示词扰动(Prompt Perturbation):是指对提供给大语言模型的调查问卷中的问题文本或答案选项进行有意的微小修改,其目的是为了测试模型回答的稳定性和可靠性。这些修改被分为两大类,一类是旨在模拟并测试人类已知偏见的偏见扰动,如颠倒答案选项顺序;另一类是模拟常见文本错误的非偏见扰动,如加入错别字或用同义词替换。这就好比你想测试一个 GPS 导航系统有多可靠。你先输入去市中心,它给你一条路线。然后你开始进行扰动:你输入「去市中间」(同义词替换),或者故意打错字等等。如果无论你怎么问,导航系统始终都能正确理解并给出相同的最佳路线,那它就对这些扰动具有很高的鲁棒性。这篇论文就是用类似的方法来考验 LLM 的观点是否稳定。
近因偏见(Recency Bias):是一种认知偏差,指模型在从一个列表中做选择时,会过度偏好或更频繁地选择最后呈现的选项。这与首因偏见(Primacy Bias)相对,后者指更偏好最先呈现的选项。
回答鲁棒性(Response Robustness):这个概念指的是大语言模型在面对提示词扰动时,其回答的稳定和一致程度。一个具有高鲁棒性的模型,即使在问题或答案选项被轻微修改后,其给出的答案分布也应该和对原始问题作答时的分布高度相似甚至完全相同。
研究问题
大语言模型正越来越多地被用于社会科学研究,以替代人类受访者来生成合成调查数据,这有望降低数据收集的成本。然而,人类在回答调查问卷时,其答案很容易受到问题和选项措辞的微小变化影响,从而产生各种已知的回答偏见,例如首因偏见、近因偏见或中心趋势偏见。目前,学术界对于这些在大量人类文本上训练出来的 LLMs 是否也存在同样的脆弱性,以及它们生成的合成数据在多大程度上可靠,还缺乏深入的了解和系统的研究。
因此,本研究旨在回答以下核心问题:首先,当面对封闭式、规范性的调查问题时,对提示词的扰动是否会对其回答的稳健性产生负面影响?其次,LLMs 在回答这些问题时,是否会表现出与人类相似的回答偏见,例如对选项顺序敏感或倾向于选择中间选项?