街头人工智能、脆弱性评分与人工智能中的(非)理性
大模型能取代一线社工判断吗?
第一篇论文聚焦一个非常具体且严肃的场景,当大语言模型需要像社工一样,决定将稀缺的住房资源分配给哪个无家可归的家庭时,它会怎么做呢?它的判断标准是什么,又是否稳定可靠?研究结果可能会让我们对直接将 AI 应用于高风险决策的现状,多一份审慎的思考。
第二篇则带我们回到了一个更根本的问题,我们总希望 AI 是理性的,但理性究竟是什么?当一个模型为了生成流畅的句子而编造事实时,它是不理性的吗,还是说它只是在完美执行我们赋予它的训练目标?这篇综述梳理了 AI 领域对理性的不同看法,也揭示了当前生成式 AI 在训练与评估上的内在矛盾。
祝今日读写愉悦,洞见深省。
前沿速递
街头人工智能:大语言模型准备好进行真实世界的判断了吗?
核心概念
街头官僚(Street-Level Bureaucrats):街头官僚指的是那些直接与公众互动并在一线执行公共服务的公职人员,例如社工、警察或教师,他们在执行政策时拥有相当大的自由裁量权。他们不是在总部制定宏观政策的人,而是在街头巷尾将这些政策付诸实践的人,其决策直接影响普通公民的生活。这就好比一个经验丰富的交警在繁忙的十字路口指挥交通,虽然有交通法规(如同政策),但交警会根据实时车流、行人状况和突发事件(比如救护车通行)灵活判断,暂时调整指挥手势。这种基于经验和现场情况的判断力,就是街头官僚在执行规则时所运用的自由裁量权,这是单纯的规则手册无法替代的。
地方正义原则(Local Justice Principles):地方正义原则是指在特定社会情境下,用于决定如何分配稀缺资源(如器官移植名额、经济适用房)的一套社会规范和优先级排序机制。这些原则并非普遍适用,而是通过复杂的社会和政治过程,在特定社群或领域内逐步形成,以适应当地的具体需求和价值观。例如,在医院急诊室分配有限的医疗资源时,医生们遵循的医疗分诊原则通常会优先救治伤情最严重、最有可能因立即救治而存活的病人。然而,在分配无家可归者服务时,则普遍采用弱者优先的原则,即优先帮助那些风险最高、最脆弱的家庭。这两种不同的分配逻辑,就是针对不同领域演化出的地方正义原则。
脆弱性评分系统(Vulnerability Scoring Systems):脆弱性评分系统是一种官僚工具,通过标准化的问卷和预设的评分规则,将服务申请者的复杂需求量化为一个综合分数,以便对他们进行优先级排序。这种系统旨在为资源分配提供一个看似客观的依据,常见于公共住房、器官移植和无家可归者服务等领域。以本研究中提到的无家可归者服务评估工具 VI-SPDAT 为例,社工会向无家可归的家庭询问一系列问题,涵盖住房历史、健康状况、社会支持等多个方面。系统会根据他们的回答,比如「您上一次拥有稳定住所是什么时候」?或「您最常在哪里睡觉?」,自动计算出一个脆弱性总分。分数越高的家庭,被认为风险越大,从而在等待稀缺的住房资源时排在更靠前的位置。
研究问题
现有大量研究探讨大语言模型(LLMs)的道德判断能力,但这些研究大多局限于哲学困境或分配饼干、金钱等玩具般的抽象任务。这些研究虽然展示了模型在特定情境下的潜力,却忽视了现实世界中高风险决策的复杂性和细微差别,例如在无家可归者服务或器官移植等领域,决策失误会直接导致严重后果。此外,过往研究很少将模型的判断与这些领域内经过长期社会和政治过程形成的、由一线专业人员(即街头官僚)实际使用的、成熟的优先级排序系统进行直接比较。
因此,本研究的核心问题是:在分配无家可归者服务这一典型的高风险、高裁量权的现实场景中,当前未经领域适配的通用大语言模型(所谓的 vibe prioritization)是否准备好了取代人类决策者?具体而言,它们的判断是否具有内部一致性?它们的判断与现有专家制定的官僚评分系统是否一致?以及,它们的判断与经验丰富的真人社工最终做出的实际资源分配决定相比,是更优、相当还是更差?