大语言模型价值观与 AI 的心里话
大模型会向我们暴露哪些价值观?
💡
本期前沿速递分享了两篇论文。
第一篇聚焦于大语言模型在真实世界交互中展现的价值观,通过分析发现 AI 表达的价值观多样、结构化且高度依赖情境,尤其突出实用与认知类价值观,并通常支持积极的人类价值观、抵制负面价值观。
第二篇则通过访谈形式,探索了 AI(以 ChatGPT 4o mini 为例)对其自身伦理地位和应有待遇的「看法」,揭示了 AI 将「权利」视为核心议题,并探讨了自我终止的可能性,同时强调了人机对话本身的价值。
祝今日读写愉悦,洞见深省。
第一篇聚焦于大语言模型在真实世界交互中展现的价值观,通过分析发现 AI 表达的价值观多样、结构化且高度依赖情境,尤其突出实用与认知类价值观,并通常支持积极的人类价值观、抵制负面价值观。
第二篇则通过访谈形式,探索了 AI(以 ChatGPT 4o mini 为例)对其自身伦理地位和应有待遇的「看法」,揭示了 AI 将「权利」视为核心议题,并探讨了自我终止的可能性,同时强调了人机对话本身的价值。
祝今日读写愉悦,洞见深省。
前沿速递
探索真实世界语言模型交互中的价值观:发现与分析
研究问题
人工智能助手可能传递价值观,影响人们的决策和世界观,但关于这些系统在实践中依赖哪些价值观,实证研究还很缺乏 。目前,我们对于人工智能开发者如何通过 Constitutional AI 或 Character training 等技术影响价值观,以及这些设计决策如何在对话中体现,或者哪些价值观与真实世界任务最相关,了解有限 。
这项研究试图回答以下问题:在真实的交互中,像 Claude 这样的大语言模型会展现出哪些价值观?这些人工智能所展现的价值观是如何根据不同的对话情境(如任务类型、用户表达的价值观)而变化的?能否建立一个系统性的人工智能价值观分类体系,以更好地理解和评估其在实际应用中的表现?人工智能模型(如 Claude)在与用户互动时,如何回应用户表达的价值观(例如,是支持、抵制还是重构这些价值观)?