AI 梗图宣传、对齐共建与计算诠释学
诠释学能给 AI 基准测试带来什么新启发?
第一篇论文用一个三阶段的参与式工作坊,请来 12 位不同学科背景的研究者,让他们异步记录日常使用 LLM 时遇到的价值观摩擦,主要是想讨论用户如何识别和理解与 AI 的价值观错位,他们设想扮演何种角色来应对这些错位,以及需要什么样的交互方式来支持这些新的对齐实践?而这研究发现背后浮现出的,是一种把对齐看作长期协商而非一次性工程任务的新视角。
第二篇论文高屋建瓴,作者们把诠释学这门人文学科里专门研究意义的传统搬到 AI 评估场上,提出一个叫「计算诠释学」的新框架。核心追问是:当我们用一个准确率分数去评一个本质上在做文化生成的系统,是不是从评估的根上就出了问题?以及我们能从诠释学得到什么新启发?
祝今日读写愉悦,洞见深省。
前沿速递
共同构建对齐:一种将 AI 价值观情境化的参与式方法
核心概念
共同构建价值对齐(Co-construction of Value Alignment):这指的是一种将 AI 价值对齐视为一个持续的、动态的互动过程的理念,而不是在模型部署前一次性完成的工程任务。它强调对齐是在用户与 AI 的实际使用交互中,通过双方的不断协商、诠释和适应来共同完成的。这就好比你和一个不熟悉你家厨房的机器人一起做饭。传统的对齐方法像是你提前写好一份无比详尽的菜谱,让机器人严格遵守。但这样做,一旦遇到菜谱没写到的情况,比如某个调料用完了,机器人就会不知所措。而共同构建的方式则更像是你和机器人在厨房里边做边沟通。你告诉它盐在左边柜子里,它可能会提醒你这个锅不适合煎鱼。你们通过这样的持续互动,共同完成了这顿饭。同样,共同构建价值对齐意味着用户和 AI 在具体任务中不断沟通,共同塑造出符合当下情境的正确行为,而不是依赖一套预设的僵化规则。
情境化价值观(Situated Values):这指的是人类的价值观并非抽象不变的普世真理,而是深深植根于具体的社会文化背景、个人经历、任务目标和互动情境之中,并因此获得其具体含义。一个脱离情境的 AI 系统,即使遵循了帮助这一通用价值观,也可能在特定情境下造成错位。举个例子,诚实是一个普遍认同的价值观。但它的具体实践是情境化的。在法庭上作证时,诚实意味着毫无保留地陈述所有事实。但在安慰一个刚理了难看发型而情绪低落的朋友时,诚实可能意味着我觉得这个新发型很大胆,很有个性,而不是直白地说太丑了。如果一个 AI 朋友只会遵循字典里诚实的定义,它可能会在后一种情况中造成伤害。因此,这篇论文强调,AI 对齐必须处理这些具体的、在特定场景中才显现意义的情境化价值观,而非仅仅编码一些空泛的原则。
模型立场性(Model Positionality):这指的是构成模型行为基础的一系列内在假设、知识来源、认知偏见以及认识论和本体论承诺。它决定了模型如何看待世界并作出回应。让这种内在的立场变得透明和可读,对于用户理解和有效引导模型至关重要。这就像你向两个人咨询投资建议,一个是激进的风险投资家,另一个是保守的银行理财经理。你知道他们的背景和立场(Positionality),所以你能理解为什么他们会给出截然不同的建议,并结合自身情况做出判断。对于 AI 也是如此,一个主要用西方新闻数据训练的模型,在看待国际问题时可能会有其特定的立场。模型立场性这个概念强调,AI 系统应该向用户展示其立场,比如明确告知我的知识主要来源于 2021 年前的英文网页,这样用户就能更好地判断其回答的适用范围和潜在偏见,并在此基础上进行更有意义的互动和调整。
研究问题
大语言模型正日益融入个人和专业实践中,但其行为与人类价值观之间的错位已成为一个紧迫问题。当前主流的对齐方法通常以模型为中心,试图在训练阶段预先编码一套抽象、普适的价值观,这不仅忽视了价值观本身是情境化的,会随具体语境、文化和个人经历而变化,还将用户视为被动的价值接受者,而非在互动中识别和应对错位的能动主体。现有的人机交互方法虽然允许用户在一定程度上引导模型,但大多关注于提升任务表现或满足个人偏好,很少直接支持用户在互动中明确地表达、协商和应对深层的价值观冲突。因此,如何设计系统以支持用户在运行时主动参与价值观对齐,仍是一个未被充分探索的领域。
基于上述背景,本文的核心研究问题是:人工智能系统的用户希望如何主动参与到共同构建情境化价值观对齐的过程中?具体而言,用户如何识别和理解与 AI 的价值观错位,他们设想扮演何种角色来应对这些错位,以及需要什么样的交互方式和界面功能来支持这些新的对齐实践?