会员通讯

大语言模型价值观与 AI 的心里话

大模型会向我们暴露哪些价值观？

💡

本期前沿速递分享了两篇论文。

第一篇聚焦于大语言模型在真实世界交互中展现的价值观，通过分析发现 AI 表达的价值观多样、结构化且高度依赖情境，尤其突出实用与认知类价值观，并通常支持积极的人类价值观、抵制负面价值观。

第二篇则通过访谈形式，探索了 AI（以 ChatGPT 4o mini 为例）对其自身伦理地位和应有待遇的「看法」，揭示了 AI 将「权利」视为核心议题，并探讨了自我终止的可能性，同时强调了人机对话本身的价值。

祝今日读写愉悦，洞见深省。

前沿速递

探索真实世界语言模型交互中的价值观：发现与分析

研究问题

人工智能助手可能传递价值观，影响人们的决策和世界观，但关于这些系统在实践中依赖哪些价值观，实证研究还很缺乏。目前，我们对于人工智能开发者如何通过 Constitutional AI 或 Character training 等技术影响价值观，以及这些设计决策如何在对话中体现，或者哪些价值观与真实世界任务最相关，了解有限。

这项研究试图回答以下问题：在真实的交互中，像 Claude 这样的大语言模型会展现出哪些价值观？这些人工智能所展现的价值观是如何根据不同的对话情境（如任务类型、用户表达的价值观）而变化的？能否建立一个系统性的人工智能价值观分类体系，以更好地理解和评估其在实际应用中的表现？人工智能模型（如 Claude）在与用户互动时，如何回应用户表达的价值观（例如，是支持、抵制还是重构这些价值观）？

算法伪装、无差别区隔与语言机器类比

监管透明度陷阱、审计文化与后殖民语境中的 AI 伦理

新闻话语、平台治理第四权力与 AI 对话式访谈

前沿速递

探索真实世界语言模型交互中的价值观：发现与分析

研究问题

Read next