前沿|情境化 AI 评估、四个无底洞错误与统计公平性的崩塌
AI & 社会|前沿研究每日简报 2025-04-26
核心概念
审计卡(Audit Cards):一种结构化的报告格式,旨在明确呈现人工智能审计的关键背景资讯,包括审计师身份、评估范围、方法、资源可及性、过程完整性和审查机制。
想象一下,你想买一个二手的玩具机器人。卖家告诉你这个机器人很棒,跑得快、会说话。但你心里会嘀咕:「真的吗?谁测试过?怎么测试的?有没有什么问题卖家没说?」 这时候,如果卖家能拿出一张「玩具机器人检查报告」,上面清楚写着:是谁检查的(比如一个专业的玩具修理师)、检查了哪些功能(跑、说、电池续航)、用什么方法检查的(比如在特定跑道上计时、录下说话声音)、检查时发现了什么(比如说话有点口齿不清)、检查员有没有拿卖家的好处等等。有了这张报告,你就能更放心地判断这个机器人到底好不好,值不值得买。
「审计卡」就像是 AI 的这种「检查报告」。现在的 AI 系统越来越复杂,比如聊天机器人、自动驾驶系统等。我们需要知道它们是否安全、可靠、公平。很多人会对这些 AI 系统进行「审计」或「评估」,就像检查玩具机器人一样。但是,光看评估结果(比如「这个 AI 通过了安全测试」)还不够。我们需要知道更多背景信息才能判断这个结果的可信度。
研究问题
人工智能治理框架越来越依赖审计,然而其底层评估结果需要解释和情境化才能真正提供资讯。即使技术严谨的评估,如果报告具有选择性或模糊不清,也可能提供很少有用的见解。目前的文献主要关注技术最佳实践,但评估本质上是一个社会技术过程,关于报告程序和情境的指导很少。鉴于此,本文旨在解决的问题是:如何在人工智能审计报告中提供必要的背景资讯,以增强透明度、促进准确解释评估结果并建立信任?
研究结论
发现一:现有评估报告在提供关键背景资讯方面存在显著差异和遗漏。报告通常会提供评估范围和程序的一般资讯,但在审计师详细资讯(如背景)、评估过程的完整性(如冲突利益)、资源可及性以及审查和沟通机制等方面的信息披露非常不足。例如,大多数报告忽略了审计师的背景和利益冲突,以及模型访问权限和可用资源的具体细节,这使得读者难以判断评估的公正性和局限性。
发现二:AI 评估是一个社会技术过程,不能将 AI 评估仅仅视为一个纯粹的技术测试活动 。评估的目标设定(评估什么、为什么评估)、标准的选取(什么是「好」或「安全」)、评估者的选择和动机、可用的资源、评估结果的解读和沟通方式等,都受到社会、组织、经济和伦理因素的影响 。例如,评估者的背景和潜在偏见 、评估是否受到商业利益的压力 、评估所依据的对现实世界风险的假设 等,都是影响评估结果及其意义的关键社会技术因素。然而,当前的普遍做法是只关注技术方法和指标,而忽略了这些重要的背景信息 。
发现三:作者认为,通过设计一个标准化的清单或模板(即审计卡),系统性地要求报告方(无论是开发者还是第三方审计员)披露关于评估过程的关键信息——包括三个总体原则(理由、假设、局限性)和六个具体特征(审计员是谁、评估什么、如何评估、访问与资源、过程完整性、审查与沟通)——可以显着改善当前信息不透明、不一致的状况 。审计卡提供了一个清晰的框架,指导报告者应该披露哪些信息,也方便了报告的使用者(如监管机构、研究人员、公众)查找和理解这些信息 。
核心概念
统计公平性(Statistical Fairness)是一种试图运用统计学方法和指标来定义与衡量算法决策是否公平的途径,其核心特征往往在于追求不同社会群体(如种族、性别)在某些结果或指标上达成数学上的「均等」或「平衡」 。它不是先确立一个伦理上的公平原则再用统计去实现,而是倾向于让统计分布或数学公式本身来「生成」公平的定义。例如,在审核贷款申请时,统计公平性可能要求不同种族申请者的批准率大致相等(即达成「统计均等」),或者要求预测模型对不同性别群体产生误判(如错误拒绝)的比率保持一致(即某种「错误率平衡」),并将达成这些统计上的平衡状态直接视为实现了「公平」 。
无底洞错误:本文提出的一种错误类型,不同于简单的计算错误,而是概念或逻辑上的根本性错误,试图在错误的框架内纠正问题只会加深错误。
研究问题
在 AI 伦理领域,尤其是电脑科学家主导的讨论中,统计公平被广泛应用于处理利益和伤害的分配问题,这成为了他们进行伦理思考的主要方式。然而,以往的研究和实践未能从根本上质疑统计公平本身的前提和逻辑,导致将伦理问题误归类为数学问题,并且试图在一个错误的框架内寻找解决方案,结果往往是重复和加深了初始的错误,使得整个方法陷入徒劳。
因此,本文旨在深入分析统计公平方法中存在的四个核心错误:将公平混同于平等、基于视角的伦理观、基于比例失衡的错误以及群体公平的错误。通过揭示这些错误的本质及其不可修复性,论文讨论的问题是:统计公平作为一种 AI 伦理方法,为何从根本上是错误的、其固有的缺陷如何导致其自身的崩溃,以及在放弃这一方法后,数据、算法和公平的新可能性有哪些?
研究结论
第一个错误是「平等错误」(Equality Error),它指的是将伦理上的「公平」概念与数学或统计上的「平等」或「均等」相混淆 。这种错误体现在两个方面:一是将公平定义为完全消除基于任何特征的区别对待,从而导致无法做出任何必要的区分性决策;二是认为只要达成了某种形式的统计指标平衡(如不同群体的错误率相等或结果比例相等),就自动实现了公平 。这种做法忽略了公平往往要求根据相关差异进行合乎比例的、不同的对待,而非简单的一视同仁或结果均等。
第二个错误是「视角错误」(Perspective Error),其核心在于通过选择性地采纳单一、排他的视角来定义公平,并在此过程中忽略甚至否定了其它相关方的合理视角与诉求 。尤其在涉及多方利益冲突的情境下(例如,刑事司法中被告与潜在受害者之间的平衡),这种方法会将某一方的「公平」定义(如最小化对被告的错误定罪)凌驾于全局考量之上,而这种定义的确立本身就是以对其它视角的排斥为前提的 。这种「排斥式伦理」违背了公平旨在调和分歧的初衷,使得由此产生的「公平」定义缺乏包容性和说服力 。
第三个错误是「比例错误」(Disproportion Error),它利用数据集中不同群体基数比例(Base Rates)的不均衡,通过有选择地呈现统计信息来制造算法不公的假象 。当某个群体在特定类别(如高风险人群)中数量较大时,即使算法以完全相同的错误率对待所有群体,该群体产生的错误案例的绝对数量也自然会更多 。如果仅仅突出这些绝对数量上的差异,而忽略了背后的基数比例因素,就很容易误导性地得出算法存在偏见的结论,而实际上这可能只是公平处理在不同比例群体上呈现的自然统计结果 。
第四个错误是「群体公平性错误」(Group Fairness Error),它指的是从预设的社会群体(如按种族、性别划分)出发,试图在这些群体之间强制实现某种统计结果的平衡或均等 。这种做法被批评为颠倒了逻辑:正确的逻辑应是公平原则的应用产生相关的群体划分(如合格者 vs 不合格者),而不是让预设的社会群体标签来决定公平的标准 。为了在预设群体间达成统计平衡,甚至可能需要牺牲个体的准确性或福祉(例如,为平衡误诊率而故意降低对某群体的诊断准确性),这暴露了该方法将群体表象置于个体实质公平之上的根本缺陷 。