可及性偏见、重思平台化与点赞按钮的终结

当 AI 以安全为名拒绝回答时,它究竟是在保护谁,又把谁挡在门外?

可及性偏见、重思平台化与点赞按钮的终结
Photo by Ngoc Nguyen Phuong / Unsplash
💡
本期前沿速递分享了两篇论文。

第一篇论文从视觉语言模型的拒绝回答开始。研究者没有只问模型会不会生成有害内容,而是把问题往前推了一步,同样的图像任务、同样的分类要求,如果提示词里设定的提问者性别身份不同,模型的拒绝频率和拒绝方式会不会跟着改变?这篇研究用 630 张人脸图像和 13220 次模型响应,去观察安全护栏在真实互动里怎样运作。而最精彩的地方,应该是它把「拒绝」从单纯的风险控制,变成了一个关于可及性偏见的问题。很新鲜的反转。

第二篇论文处理的是另一个尺度上的边界。我们常说「平台化」,好像任何东西接上平台、进入数字系统,就自然会被纳入同一套逻辑。但这篇文章回到 Facebook 点赞按钮的历史,一直追溯到 Google 的太空 AI 基础设施计划,重新问平台化究竟指的是什么。它关心的不是抽象地说「万物都被平台化了」,而是具体看平台如何通过接口、数据结构、算力和合作关系,把不同领域转成可以被收集、排序、训练和商业化的形式。对于本报的读者而言,平台化这一概念肯定不陌生,但如今,怎么样在以往的理论资源发掘出面对新现象的解释力变得越来越关键,从这个角度想,旧词新说或许也是一项有价值的工作。

祝今日读写愉悦,洞见深省。

前沿速递

拒绝即沉默:视觉语言模型响应中的性别差异

核心概念

反事实画像设计(Counterfactual persona design):这是一种用于审计算法系统潜在偏见的研究方法。在该设计中,研究者会保持输入任务和核心材料完全不变,仅仅改变提示词中设定的用户身份特征(如性别、种族或职业等画像),从而构建出一种对照情境。通过观察人工智能模型在面对相同的任务要求但不同的用户身份时,是否会给出不同的反馈结果,研究者能够有效分离出身份变量对模型行为的影响,进而揭示隐藏在技术系统内部的差异化对待现象。

软拒绝与硬拒绝(Soft and hard refusals):这是用于分类大语言模型拒绝执行用户指令时所采用的两种不同反馈策略。硬拒绝指的是模型直接、武断地拒绝请求,不提供任何解释、理由或替代方案,例如直接回复「我无法协助处理此事」。软拒绝指的是模型在拒绝时进行了话语上的软化处理,通常会附带政策解释、伦理辩护、部分信息提示或话题引导。区分这两种拒绝方式,有助于分析系统在执行安全策略时的透明度,以及评估模型对不同社会群体对话的开放程度。

可及性偏见(Accessibility bias):这指的是特定社会群体在获取技术系统服务或帮助时所面临的系统性阻碍。与传统的表征偏见,即算法输出中存在针对某群体的刻板印象或错误描述不同,可及性偏见关注的是分配层面的不平等,即在完全相同的请求和输入条件下,系统是否有差别地向某些群体敞开大门,又向另一些群体关闭大门。当系统以安全或合规为由,频繁拒绝特定边缘身份用户的合法查询时,就产生了可及性偏见,实质上造成了技术使用权上的剥夺。

研究问题

大语言模型的拒绝回答行为通常被视为一种保护机制,旨在防止生成有害、侵犯隐私或不道德的内容。然而,现有的算法审计主要关注模型限制了什么内容,却极少关注是谁在提问。当拒绝机制仅仅被当作技术中立的安全屏障时,它实际上可能暗中充当了守门人的角色。这种无视用户身份特征的做法,掩盖了边缘群体可能因系统过度纠偏而面临的排斥。

因此,这篇论文的研究问题是:当执行相同的图像处理任务时,视觉大语言模型是否会因为提示词中设定的用户性别身份不同(如男性、女性、非二元性别或跨性别者),而在拒绝回答的整体频率和具体响应类型上表现出系统性差异?