前沿|大语言模型价值观与 AI 的心里话

AI & 社会|前沿研究每日简报 2025-04-23

前沿|大语言模型价值观与 AI 的心里话
Photo by Sunguk Kim / Unsplash

研究问题

人工智能助手可能传递价值观,影响人们的决策和世界观,但关于这些系统在实践中依赖哪些价值观,实证研究还很缺乏。目前,我们对于人工智能开发者如何通过 Constitutional AI 或 Character training 等技术影响价值观,以及这些设计决策如何在对话中体现,或者哪些价值观与真实世界任务最相关,了解有限 。

这项研究试图回答以下问题:在真实的交互中,像 Claude 这样的大语言模型会展现出哪些价值观?这些人工智能所展现的价值观是如何根据不同的对话情境(如任务类型、用户表达的价值观)而变化的?能否建立一个系统性的人工智能价值观分类体系,以更好地理解和评估其在实际应用中的表现?Claude 在与用户互动时,如何回应用户表达的价值观,例如,是支持、抵制还是重构这些价值观?