事实核查、信心悖论与 AI 适用性
弱 AI 为什么事实核查时更自信?
第一篇聊的是一个很有意思的发现。你有没有想过,为什么那些能力比较弱、比较便宜的 AI 模型,在判断一件事情是真是假的时候,反而表现得特别自信,什么都敢说?而像 GPT-4o 这样更强大的模型,却总是小心翼翼,经常说自己不知道?这背后到底是什么原因,又会给我们使用 AI 带来什么风险呢?
第二篇则把研究焦点放在了我们自己身上。我们每天都在用 AI 帮忙工作,但 AI 到底是在代替我们工作,还是在帮助我们更好地工作?对于不同的工作活动,AI 辅助或执行的成功率和影响范围有多大?另外,究竟哪些职业从 AI 身上获益最多呢?
祝今日读写愉悦,洞见深省。
前沿速递
扩展真相:AI 事实核查中的信心悖论
核心概念
选择性准确率(Selective Accuracy):这是一个评估模型在做出明确判断时可靠性的指标。它只计算模型给出明确的真或假的回答中,判断正确的比例,而完全忽略模型选择回避作答(回答为其它)的情况。举个例子,假设一个事实核查 AI 被问了 100 个问题,它对其中的 60 个给出了明确的真或假的回答,另外 40 个问题它回答不确定。在这 60 个明确的回答中,有 54 个是正确的。那么,它的选择性准确率就是 54 除以 60,即 90%。这个指标非常重要,因为它衡量了当模型选择自信地发言时,它的发言有多大的可信度。一个高选择性准确率的模型,即使话不多,但说出来的判断都是非常可靠的。
规避友好准确率(Abstention-Friendly Accuracy):这是一个衡量模型整体安全性和可靠性的指标,它同时奖励正确的判断和明智的回避。这个指标计算的是,在所有问题中,模型回答正确或选择回避作答(回答其它)的总比例。继续上面的例子,那个 AI 回答了 100 个问题,其中 54 个回答正确,40 个选择回避。那么它的规避友好准确率就是(54+40)除以 100,即 94%。这个指标认为,在事实核查这种高风险场景中,错误地给出一个肯定答案的危害远大于承认我不知道。因此,它鼓励模型在没有把握时保持沉默,从而衡量模型在避免产生危害方面的表现,体现了其整体的可靠程度。
确定率(Certainty Rate):这个指标衡量模型做出明确判断的频率,可以看作是其自信心的代理指标。它计算的是模型在所有问题中,给出明确真或假的回答所占的比例,而不回避作答的频率。在之前的例子中,AI 在 100 个问题里回答了 60 个明确的答案,所以它的确定率就是 60%。
研究问题
大语言模型正被越来越多地整合到搜索引擎和事实核查流程中,以应对日益严峻的错误信息问题。然而,这些模型的可靠性面临着诸多挑战,包括生成看似可信却完全错误的幻觉内容、不同模型间存在巨大的能力和成本差异,以及在处理非英语语言和非西方文化背景信息时的性能下降。以往对模型事实核查能力的评估,往往依赖于研究人员精心设计的结构化指令和地理范围有限的数据集,未能真实反映全球普通用户在实际使用中遇到的复杂情况和查询习惯。
因此,本研究的核心问题是:在模拟真实世界普通用户查询行为的条件下,不同规模、架构和成本的大语言模型在处理全球范围内多语言、多地域的真实声明时,其事实核查的准确性和置信度表现如何?这些模型在不同语言和地理区域之间是否存在显著的性能差异,这种差异是否揭示了可能加剧全球信息鸿沟的系统性风险?