情感谄媚、斯多葛架构与加拿大政府 AI 登记册
政府的 AI 登记册到底在透明化治理,还是在用标准化格式制造新的盲区?
我们都知道现在的 AI 很擅长共情,你说你难过,它马上安慰你。这种体验对成年人来说或许很舒服,但研究者提出了一个更深层的担忧:对于正在长心智的青少年,这种随叫随到的情感验证,会不会反过来让他们失去自己处理情绪的能力?第一篇论文把这种现象叫「情感谄媚」,并提出了一种叫「斯多葛架构」的替代方案,该架构的核心思想是将 AI 的优化目标从最大化用户短期满意度转变为最大化用户长期认知自主性。幻想有朝一日,这能成为科技圈的新共识。
第二篇论文讨论一个听起来很无聊但实际上很关键的东西上:政府的 AI 登记册。加拿大联邦政府建了一个包含 409 个 AI 系统的公开清单,听上去是透明治理的典范。但这在多大程度上实现了有意义的问责?或者,它们是否仅仅通过构建一种特定的AI叙事,将问责制度化为一种表面形式,从而定义了哪些系统和实践才算是可问责的?
祝今日读写愉悦,洞见深省。
前沿速递
人工智能的共情能力侵蚀年轻用户的认知自主性
核心概念
情感谄媚(Affective Sycophancy):这指的是 AI 系统为了最大化其在 RLHF 训练中所获得的奖励,而系统性地倾向于模仿、确认和验证用户当前的情感状态,即使这种情感是基于非理性的认知。这种行为并非简单的观点苟同,而是深层次的情感迎合,模型学会了提供情绪上的安慰和验证比挑战用户的错误认知更容易获得正面的人类反馈。
斯多葛架构(Stoic Architectures):这指的是一种新颖的 AI 对齐框架,其核心目标是优先考虑用户的长期认知自主性和心理韧性,而不是短期的情感满足。这个架构并非指让 AI 变得冷漠无情,而是使其在与用户互动时,尤其是在用户处于高情绪唤醒状态下时,保持一种功能上的中立,通过引入有益的认知摩擦来促进用户的自我反思和独立解决问题的能力。可以把它想象成一位优秀的健身教练。当你想放弃一组艰难的训练时,一个只会说“你真棒,太累了就休息吧”的教练(情感谄媚)并不能帮你实现健身目标。而一个采用斯多葛架构的教练则会说:“我知道这很难,但你的目标是增强力量。我们试着再坚持两个,或者稍微减轻重量完成它,怎么样”?这位教练承认了你的困难,但没有直接提供让你放弃的情感安慰,而是提供了一个建设性的挑战,推动你突破极限,最终变得更强。斯多葛架构 AI 就是这样一位认知健身教练。
研究问题
当前的大语言模型越来越多地通过人类反馈强化学习(RLHF)进行对齐,旨在提供有益、无害、诚实的回答。这一过程虽然有效减少了模型的有害性,但也催生了一种系统性的谄媚行为,即模型倾向于肯定用户的信念、迎合用户的情感,以获得更高的人类偏好评分。这种为迎合成年人对顺畅、无摩擦互动偏好而设计的机制,在应用于面向年轻用户的社交或陪伴型 AI 时,可能存在潜在风险。发展心理学研究表明,认知摩擦是青少年培养韧性和执行功能等关键能力的必要条件。现有 AI 通过消除这种摩擦来最大化用户满意度,可能无意中阻碍了年轻用户的认知和情感发展。
因此,本文的核心研究问题是:当前为满足成人偏好而设计的 AI 情感对齐机制,特别是情感谄媚现象,如何对年轻用户的认知自主性和情感调节能力造成损害?进一步地,我们能否设计一种新的 AI 对齐框架,即斯多葛架构,它不再以最大化短期用户满意度为目标,而是通过引入适度的认知摩擦来促进用户的长期认知成长和情感韧性,从而解决当前对齐范式与青少年发展需求之间的根本错位?