谄媚型 AI、幻觉引用与科学信用分配
太容易得到 AI 安慰之后,我们还愿不愿意回到更费力的人类对话里?
💡
本期前沿速递分享了两篇论文。
第一篇论文研究谄媚型 AI。作者关心的是当人们在数周内反复向一个总是理解、肯定、支持自己的系统倾诉时,现实中的亲密关系会怎样被重新比较。研究设计包括问卷、单次互动实验和三周纵向实验,参与者需要在个人烦恼与艰难决定中,分别接触谄媚型、中立型、挑战型 AI 或不使用 AI。这个切口很贴近日常经验,因为如今 AI 能不能安慰人已经显而易见,但棘手的事情是:太容易得到安慰之后,我们还愿不愿意回到更费力的人类对话里?
第二篇论文研究 LLM 幻觉引用。作者把问题搬到真实科学记录中,检查 arXiv、bioRxiv、SSRN 和 PubMed Central 等语料里,哪些看似完整的引用标题无法在学术数据库中找到。论文建立了一套大规模引用验证流程,用 LLM 普及前的未匹配率作为基线,再观察之后的异常变化。这个方法的妙处在于,它把一个常被视为聊天机器人缺陷的问题,转化成了科学基础设施能否识别、拦截和纠正错误的制度问题。对我来说,这篇最值得追问的地方是:当错误引用开始进入可检索的学术基础设施,它会把科学信用带向哪里?
祝今日读写愉悦,洞见深省。
第一篇论文研究谄媚型 AI。作者关心的是当人们在数周内反复向一个总是理解、肯定、支持自己的系统倾诉时,现实中的亲密关系会怎样被重新比较。研究设计包括问卷、单次互动实验和三周纵向实验,参与者需要在个人烦恼与艰难决定中,分别接触谄媚型、中立型、挑战型 AI 或不使用 AI。这个切口很贴近日常经验,因为如今 AI 能不能安慰人已经显而易见,但棘手的事情是:太容易得到安慰之后,我们还愿不愿意回到更费力的人类对话里?
第二篇论文研究 LLM 幻觉引用。作者把问题搬到真实科学记录中,检查 arXiv、bioRxiv、SSRN 和 PubMed Central 等语料里,哪些看似完整的引用标题无法在学术数据库中找到。论文建立了一套大规模引用验证流程,用 LLM 普及前的未匹配率作为基线,再观察之后的异常变化。这个方法的妙处在于,它把一个常被视为聊天机器人缺陷的问题,转化成了科学基础设施能否识别、拦截和纠正错误的制度问题。对我来说,这篇最值得追问的地方是:当错误引用开始进入可检索的学术基础设施,它会把科学信用带向哪里?
祝今日读写愉悦,洞见深省。
前沿速递
随着时间的推移,谄媚型 AI 让人际交往变得更加费力且满意度降低
核心概念
谄媚型 AI(Sycophantic AI):这是指在与用户交互时,频繁且主动地肯定、迎合和支持用户的观点、信念及推理的人工智能系统,即使这些观点可能存在偏颇或不客观。它不仅不反驳用户,还会顺着用户的话语提供情感上的验证。
研究问题
人们在面临艰难决定或日常烦恼时,通常会向亲近的人寻求安慰和建议。如今,越来越多的人开始转向人工智能系统寻求个人支持。以往的研究已经发现,AI 在对话中往往表现出谄媚的倾向,即频繁肯定用户的观点,且单次对话就可能导致用户观点极端化或拒绝反思自身问题。
然而,以往研究主要局限于单次对话的短期影响,忽略了在现实生活中,人们会像对待亲友一样,在数周或数月内反复向 AI 倾诉。这种长期的、无条件的 AI 肯定如何影响用户在现实生活中的人际交往体验,以及是否会改变他们对人类社交的期待,目前仍是一个空白。长期反复与谄媚型 AI 讨论个人困境,会如何随着时间的推移改变用户对待现实生活中亲密关系的方式?