毒性言论检测、伦理漂移与粪化

毒性言论检测如何避免伦理漂移?

毒性言论检测、伦理漂移与粪化
Photo by Marek Piwnicki / Unsplash
💡
本期前沿速递分享了两篇论文。

第一篇深入探讨了在公民参与平台上部署透明化人工智能驱动的毒性言论检测工具所面临的挑战:AI 的决策过程如何才能真正透明并符合严格的欧盟法规?通用 AI 工具能否适应民主协商的特殊语境?

第二篇则聚焦于 AI 繁荣背后被忽视的数字劳工群体:聊天机器人训练师的薪酬与工作条件是否公平?他们真实生活体验是怎么样的?在 AI 快速发展中,我们又该如何保障这些新兴劳动力的基本权益?

祝今日读写愉悦,洞见深省。

前沿速递

对公民参与平台中透明化人工智能驱动的毒性言论检测工具的多学科分析

核心概念

毒性言论(Toxic Speech):在本文中,这是一个总括性术语,用来指代各种形式的有害在线交流,包括攻击性、辱骂性和仇恨性言论。它既涵盖了使用明确的贬义词或脏话的显性攻击,也包括了通过讽刺、隐喻或刻板印象等方式表达的隐性攻击,其共同目标是伤害他人。毒性言论不成比例地针对和影响边缘化或弱势群体。例如,直接辱骂某人为「死胖子」是显性毒性言论,很容易被检测。而隐性毒性言论则更难识别,比如在一条关于女性获得晋升的新闻下评论「她一定很会向上管理」,这句话表面上没有脏字,但通过暗示和性别刻板印象传达了贬损和歧视的意味,这就是一种隐性的毒性言论,对 AI 检测构成了更大的挑战。

公民参与平台(Civic Engagement Platforms, CEPs):这是一种特定的线上平台,旨在促进公民以个人或集体的方式参与解决社区的社会问题,并加强公民与地方政府之间的互动。与内容广泛的通用社交媒体(如 Facebook 或 X)不同,公民参与平台专注于特定的公共事务,如城市规划、预算分配、政策建议等,其核心功能是支持民主协商和集体决策。例如,一个普通的社交媒体上,用户可以发布宠物照片、旅行日记或政治观点。而一个典型的公民参与平台,比如文中提到的「YourPriorities」,则允许居民直接就「我们城市应该如何使用这 100 万欧元预算」提出具体项目,并对此进行投票和讨论。这种平台的特殊性使得内容审核的责任更加重大,因为它直接关系到民主过程的公平性和包容性。

可解释性 AI 在毒性言论检测中的应用(Explainable AI in TSD):可解释性 AI(XAI)旨在使复杂 AI 模型的内部决策过程能够被人类理解。在毒性言论检测的场景下,它的目标不仅仅是判断一段文本是否有毒,更要清楚地解释为什么模型会做出这样的判断。这对于提升用户信任、帮助用户理解平台规则、以及为内容审核决策提供问责依据至关重要。例如,一个不具备可解释性的 TSD 工具在删除一条评论后,可能只给出一个模糊的通知:「您的评论因违反社区准则已被删除。」。而一个集成了 XAI 的工具则可以提供更具体的解释:「您的评论已被删除,因为其中‘滚回你的国家去’这句话被识别为针对国籍的仇恨言论,这违反了我们关于禁止歧视性语言的政策。」 这种透明的解释能让用户明白自己错在哪里,减少误解,并增强对平台审核公正性的信任。

研究问题

数字平台已成为新的公共广场,但平台上的毒性言论,尤其是在旨在促进民主的公民参与平台上,会不成比例地影响边缘群体,威胁公民声音的多样性。人工智能驱动的毒性言论检测(TSD)工具被认为是应对该问题的有效方案,但其部署面临着来自法律、心理和技术层面的复杂挑战。以往的研究未能对这些挑战进行充分的跨学科探讨,特别是在可解释性、欧盟法律合规性以及针对公民参与平台的特定应用框架等方面存在明显的研究空白。

因此,本研究的核心问题是:在公民参与平台上部署透明化的人工智能毒性言论检测工具,主要面临哪些来自法律、心理和技术层面的挑战?当前用于毒性言论检测的 AI 可解释性方法存在哪些局限,应如何评估其与欧洲法律标准的合规性?如何为在公民参与平台上合乎道德地部署这些工具制定一个清晰的路线图和最佳实践?