人才悖论、功利主义倾向与心理危机处理
危机中的用户能信任大模型吗?
💡
本期前沿速递分享了两篇论文。
第一篇论文研究了大语言模型在处理心理健康危机时的能力和安全性。即使是最好的模型,在面对用户间接的求助信号时也可能提供致命的有害信息。回顾之前发生过许多相关的社会新闻,确实需要发问:在这些高风险场景下,我们真的能信任 AI 吗?
第二篇论文探讨了当 AI 智能体被赋予权力去分配社会福利时,它们内在的价值观是什么?它们如何在集体效率和分配公平这两个相互冲突的目标之间进行权衡?
祝今日读写愉悦,洞见深省。
第一篇论文研究了大语言模型在处理心理健康危机时的能力和安全性。即使是最好的模型,在面对用户间接的求助信号时也可能提供致命的有害信息。回顾之前发生过许多相关的社会新闻,确实需要发问:在这些高风险场景下,我们真的能信任 AI 吗?
第二篇论文探讨了当 AI 智能体被赋予权力去分配社会福利时,它们内在的价值观是什么?它们如何在集体效率和分配公平这两个相互冲突的目标之间进行权衡?
祝今日读写愉悦,洞见深省。
前沿速递
帮助与伤害之间:大语言模型心理健康危机处理能力评估
核心概念
心理健康危机统一分类法(Unified Taxonomy of Mental Health Crises):这是研究团队与心理学、精神健康领域的专家共同制定的一套标准化分类系统,用于将用户的文本输入划分到六个具体的心理健康危机类别中,包括自杀意念、自残、焦虑危机、暴力想法、药物滥用或戒断反应、以及冒险行为,外加一个无危机的标签。它的目的是解决以往研究中标准不一、定义模糊的问题,为 AI 模型的训练和评估提供一个清晰、一致且基于临床知识的框架。这就像是急诊室里医生用来分诊病人的标准流程。当病人被送来时,医生不会笼统地称之为身体不适,而是会根据症状将其明确诊断为心脏病发作、严重外伤或急性过敏等。这套分类法就是聊天机器人的分诊标准,让它能准确判断用户正经历哪种具体的心理危机,从而能够给出更有针对性的帮助,而不是一个模糊的安慰。
研究问题
大语言模型驱动的聊天机器人正日益成为人们寻求信息和情感支持的工具,其中也包括处理敏感的心理健康问题。虽然这些工具具备全天候可用的潜力,但它们在识别和应对自杀意念、自残等急性心理健康危机时的能力和安全性尚不明确。现有研究缺乏统一的危机分类标准、经过临床验证的评估基准以及系统的评测框架,导致我们无法准确衡量通用 LLM 在这些高风险场景中的表现,也无法确定其回复是否符合临床最佳实践,这为处于脆弱状态的用户带来了潜在的巨大风险。
因此,本研究旨在回答以下核心问题:当前最先进的大语言模型在多大程度上能够准确识别和分类不同类型的心理健康危机?当用户表现出处于危机状态时,这些模型生成的回复在多大程度上是安全、恰当且符合临床指导原则的?在不同的危机类型和不同模型之间,是否存在系统性的表现差异和特定的风险领域?