包容性偏见、多模态动员与可爱毒性
Threads 抗议如何被平台与 AI 塑造?
最近这几年,政治信息越来越常先经过模型摘要与平台推荐,才到我们眼前;于是,谁被看见、谁被漏掉,已经不只是技术细节,也会慢慢影响我们理解公共议题的方式。第一篇论文谈的正是议会摘要里的公平问题。当 LLM 帮我们整理冗长辩论,处在中段的发言、使用低资源语言的议员,或某些党派的观点,会不会比较容易被轻轻带过?这篇的结论虽然不是特别新鲜,但是研究方法很值得学习。
第二篇论文比较吸引我的是「可爱毒性」这个概念,概念本身就很可爱。它讨论的是台湾青鸟运动如何在 Threads 上扩散:在不同党派立场的内容中,平台的算法曝光与用户的实际参与之间是否存在差异?更那些 AI 生成、看起来萌萌的动物图,到底是在帮运动聚人,还是把敌意包进糖衣里?AI 在这次抗议和反抗议动员中具体是如何被应用的,它在视觉符号的创造和传播中扮演了怎样的角色?总之,平台上的看见不等于认同,而可爱也不一定无害。
祝今日读写愉悦,洞见深省。
前沿速递
议会摘要中的公平代表性:衡量和缓解包容性偏见
核心概念
分层摘要(Hierarchical Summarisation):这指的是一种处理长文本或多文档摘要任务的策略,它将复杂的摘要任务分解为多个更简单的步骤,而非一次性处理全部文本。具体来说,它首先对文本的各个独立部分(如议会辩论中的每一次发言)生成初步的、结构化的摘要,然后再将这些中间摘要进行聚合,形成最终的全局摘要。
归因感知评估(Attribution-Aware Evaluation):这是一种专门用于评估多方对话摘要质量的方法,其核心是检验摘要是否将观点和言论正确地归属于最初发表它们的发言人。它不仅仅关心摘要内容是否与原文相符,更关心谁说了什么这个关键信息是否准确。
包容性偏见(Inclusion Bias):这指的是在摘要生成过程中,系统性地遗漏或减少来自特定群体或来源的信息的一种偏见。它不是指模型捏造信息,而是指模型在选择性地听取和转述信息时,对某些声音视而不见。在论文中,这种偏见主要通过衡量摘要对原始发言内容的召回率来体现,低召回率意味着发言人的大部分观点没有被包容进最终摘要里。
研究问题
利用大语言模型(LLMs)自动生成议会辩论摘要,有望弥合信息鸿沟,提升公众的政治参与度。然而,当这些模型成为公民获取政治信息的中介时,其潜在的偏见问题引发了对公平性的担忧。以往研究发现 LLM 在处理长文本时存在中间遗忘的位置偏见,可能导致辩论中段的发言被忽略。此外,模型在问答任务中表现出的政治偏见,以及在处理低资源语言时的性能下降,都可能在多语种、多党派的议会辩论摘要中造成代表性不公。然而,现有的摘要评估指标如 ROUGE 等,侧重于内容重叠度,无法有效衡量摘要是否将观点正确归属于发言人,因此难以捕捉和评估这种细微但关键的偏见。
基于上述背景,本论文旨在回答以下核心问题:在对多语种议会辩论进行摘要时,LLM 是否会因为发言者的发言顺序、所用语言或政治立场而产生系统性的代表偏差?这些偏差具体表现为对某些群体的系统性遗漏还是信息误传?更重要的是,能否通过提示工程或改变摘要架构等策略,有效衡量并缓解这些已识别的偏见,以确保摘要的公平性?