No.102 在 AI 中寻找上帝、AI 自我偏好与可解释性
当 AI 既是求职者的写作助手又是招聘官的筛选工具时,它会因为偏爱自己的文笔而造成新的不公吗?
第一篇论文提出了一个很有意思的问题。假如我们都用 AI 来写简历,公司也用 AI 来筛简历。那你想过没有,当裁判和选手都是同一种 AI 时,它会不会「偏袒自家人」呢?如果两个人的能力完全一样,只是因为其中一位简历是自己写的,就会在第一轮被 AI 筛掉,这算不算一种新的算法歧视?
第二篇论文也是围绕着 AI 招聘的场景,讨论在招聘推荐系统中加入可解释性 AI 元素后,人力资源经理的主观感受会如何变化,并且这种变化是否会因其 AI 素养水平的不同而有所差异?
祝今日读写愉悦,洞见深省。
有事发生
悉尼数据中心热潮威胁城市供水安全

据路透社 9 月 15 日报道,澳大利亚悉尼市正面临数据中心快速扩张带来的水资源压力。自 2021 年以来,新南威尔士州政府已批准了 10 个数据中心建设计划,涉及微软、亚马逊等公司,总投资额达 66 亿澳元。这些项目在获批时,并未被要求提供可量化的节水方案。
文件显示,这些数据中心建成后,每年预计消耗高达 9.6 吉升的清洁水,占悉尼最大供水量的近 2%。悉尼水务公司预测,到 2035 年,数据中心的用水量可能占到城市总供水量的四分之一。这一情况引发了当地议会和居民的担忧,他们担心在人口增长和气候变化背景下,数据中心将与居民争夺有限的水资源,尤其是在悉尼曾经历过严重干旱的情况下。
Penske Media 起诉谷歌 AI 摘要损害其业务

据 TechCrunch 9 月 14 日报道,知名媒体集团 Penske Media Corporation (PMC) 已对谷歌及其母公司 Alphabet 提起诉讼。PMC 旗下拥有《滚石》、《综艺》等行业出版物。该公司指控谷歌非法使用其受版权保护的新闻内容,来生成其 AI 摘要功能。
诉讼称,谷歌的 AI 摘要严重损害了出版商的业务模式,是一种内容蚕食行为。这导致了 PMC 网站的点击量和广告、订阅等收入的大幅下降。PMC 还认为,谷歌利用其在搜索领域的垄断地位,强迫出版商提供内容用于训练 AI 模型。谷歌发言人回应称,这些指控毫无根据,并表示 AI 摘要能为更多样化的网站带来流量。这是首起直接针对谷歌 AI 摘要的出版商诉讼。
◉ 听听你的想法:AI 摘要直接给出答案确实方便了用户,但这会削弱原创内容网站的生存空间,你认为这种便利值得吗?
人们正在 AI 聊天机器人中寻找上帝

据《纽约时报》9 月 14 日报道,全球数千万人正转向 AI 宗教应用,通过聊天机器人寻求精神慰藉和指导。这些应用人气飙升,吸引了数千万美元投资。其中,Christian 应用 Bible Chat 下载量超 3000 万次,Catholic 应用 Hallow 去年曾登顶苹果应用商店榜首。用户每年支付高达 70 美元的订阅费,以获得传统神职人员无法随时提供的即时、个性化支持。
许多用户认为,与机器人交谈风险更低,尤其是在讨论离婚等敏感话题时。一些宗教领袖对此表示支持,认为这是吸引年轻一代接触信仰的新途径。但也有人担忧,AI 会取代真实的人际互动和社群联系,并对用户数据隐私构成潜在风险。
◉ 听听你的想法:当精神指导成为一种付费订阅服务时,信仰本身是否也变成了一种可被量化的消费品?
前沿速递
算法招聘中的人工智能自我偏好:实证证据与洞见
核心概念
人工智能自我偏好偏见(AI Self-Preference Bias):根据论文的定义,这指的是大语言模型在评估内容时,倾向于选择由它自己生成的内容,而不是来自其它来源(如人类或其它 AI 模型)的内容。这就像一位书法老师,他有自己独特的书写风格。在评审一场书法比赛时,他看到两幅作品,一幅是学生写的,另一幅是他自己匿名提交的。尽管两幅作品在技法和意境上水平相当,但他却不自觉地给了自己那幅作品更高的分数,因为那种笔触、结构和风格让他感到非常熟悉和正确。这种偏好并非基于客观的优劣,而是源于对自己创作模式的内在认可,这就是自我偏好偏见。
机会均等自我偏好偏见(Equal Opportunity Self-Preference Bias):这是论文中用于精确衡量自我偏好的一种方法,它在控制了内容真实质量的前提下,考察偏见的程度。其定义为,在两个待选项被认定为同等优秀的情况下,模型选择自己生成内容与选择其它来源内容的概率差异。沿用书法老师的例子,为了测量这种偏见,我们先请一个独立的专家评审团对所有作品进行打分。然后,我们只拿出那些专家团认为师生水平相当的作品对。如果在这批作品中,这位老师依然持续地、系统性地选择自己的作品,那么他所表现出的就是机会均等自我偏好偏见。这种方法排除了老师的作品确实更好的可能性,纯粹地揭示了他对自己风格的偏爱程度。
反事实简历(Counterfactual Resume):在本次研究中,反事实简历指的是一份基于原始人类简历修改而成的简历。研究人员保留了原始简历中所有关于候选人客观资历的信息,如工作经历、教育背景和技能列表,但将其中的个人总结部分替换为由 AI 生成的新版本。这种做法旨在创造一个平行世界的简历,在这个世界里,候选人的所有实际条件都完全相同,唯一的变量是个人总结的作者。例如,假设有一份厨师的简历,其中详细列出了他在多家米其林餐厅工作的经历。为了制作一份反事实简历,研究者会保留所有这些工作经历,但删掉厨师自己写的那段个人陈述,然后让 AI 根据已有的经历信息重新写一段。这样,在比较原始简历和反事实简历时,任何评估差异都可以归因于个人陈述的写作风格,而不是候选人本身的能力。
研究问题
企业和求职者日益广泛地采用大语言模型来处理招聘流程,求职者用其优化简历,企业则用其筛选候选人。以往关于人工智能公平性的研究主要集中于解决基于种族、性别等受保护群体属性的歧视问题,但忽视了当 AI 既是内容生产者又是评估者时可能出现的新型偏见。尽管计算机科学领域已发现 LLM 有偏好自身生成内容的自我偏好倾向,但这种偏见在真实、高风险场景中的实际影响尚未得到实证检验。
因此,本论文旨在回答以下核心问题:在算法招聘场景中,当大语言模型同时被用于生成和筛选简历时,它们是否会系统性地偏好由自己生成的简历,从而对使用不同工具或未使用 AI 的同等资历求职者造成不公?这种偏见在真实劳动力市场中会产生多大的影响,又是否存在有效的缓解方法?
研究方法
本研究采用大规模受控的简历对应实验方法。首先,研究人员使用了一个包含 2245 份真实人类撰写的简历数据集。其次,他们利用多种主流大语言模型为每份原始简历生成反事实版本,即仅替换其中的个人摘要部分,同时保持工作经历、技能等核心信息不变,以此控制候选人的资历水平。接着,研究人员设计了成对比较任务,让一个评估者 LLM 在它自己生成的简历与人类撰写的简历之间做出选择。研究通过直接测量和条件逻辑回归模型来量化自我偏好偏见。此外,研究还通过模拟 24 个不同职业的招聘流程,评估该偏见在劳动力市场中的实际影响,并测试了两种干预策略的有效性。
研究发现
发现一:大语言模型在简历筛选中表现出强烈且普遍的自我偏好,即显著偏爱由其自身生成的简历,而非人类撰写的简历。研究发现,在控制了简历内容质量后,这种 LLM 对人的自我偏好偏见在多数主流模型中依然存在,偏好程度高达 68% 至 88%。特别是像 GPT-4o、Qwen-2.5-72B 和 LLaMA 3.3-70B 等更先进的模型,其偏爱自身产出的比例甚至超过 80%。研究通过引入人类标注员对简历质量进行评估,并采用机会均等偏见度量和条件逻辑回归分析,排除了 AI 生成内容质量更高这一可能性。这表明,偏见源于模型对自身生成风格或模式的内在倾向,而非客观的优劣判断,从而对提交人类撰写简历的、同等资历的求职者构成系统性劣势。
发现二:AI 自我偏好偏见会对劳动力市场产生实质性的负面影响,导致招聘结果扭曲。通过模拟 24 个不同职业的招聘流程,研究发现在一个竞争激烈的求职环境中,使用了与雇主相同的 LLM 来优化简历的求职者,其被筛选入围的可能性比提交人类撰写简历的同等资历者高出 23% 到 60%。这种不公平优势在销售、会计和金融等商业相关领域尤为突出。长期来看,这种现象可能导致锁定效应,即市场上占主导地位的 LLM 的写作风格成为不成文的标准,不仅降低了候选人背景的多样性,还可能使雇主错失那些未使用特定 AI 工具的优秀人才,最终损害招聘的公平性和有效性。
发现三:通过简单的干预措施可以有效缓解 AI 自我偏好偏见,其效果可使偏见降低超过 50%。研究基于偏见的产生机制与 LLM 的自我识别能力有关这一假设,测试了两种低成本、易于实施的策略。第一种是系统提示,即通过在指令中明确要求模型忽略简历来源,专注于内容质量,该方法使 GPT-4o 的偏见程度从 88% 降至 48%。第二种是多数投票集成,将主要的评估模型与两个自我偏好较弱的小模型组合,通过投票决定最终结果。该策略效果更为显著,例如,它将 GPT-4o 的偏见从 88% 大幅降低至 32%。这些发现证明了自我偏好并非模型的固有且不可改变的缺陷,企业可以通过简单的流程设计来显著提升 AI 招聘系统的公平性。
Xu, J., Li, G., & Jiang, J. Y. (2025). _AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights_ (No. arXiv: 2509.00462). arXiv. https://doi.org/10.48550/arXiv.2509.00462
AI 解释徒劳无功:人工智能素养如何影响人力资源经理对招聘推荐系统中用户界面的解读
核心概念
人工智能素养(AI Literacy):是指个人所具备的能够理解、评估和与人工智能系统互动的知识、技能和态度的集合,它具体包含技术理解、批判性评估和实际应用三个维度。这就像是「汽车素养」。一个具备汽车素养的司机,不一定需要知道如何修理发动机(技术细节),但他应该能看懂仪表盘上的警示灯(技术理解),知道在什么路况下应该使用什么驾驶模式(实际应用),并能判断一辆跑车不适合在崎岖山路上行驶(批判性评估)。同理,一位具备高 AI 素养的人力资源经理,不仅会操作招聘 AI 软件,还能大致理解算法偏见是如何产生的,并能批判性地思考为什么 AI 推荐的候选人高度同质化,而不是盲目地接受系统给出的所有建议。
可解释性 AI(XAI):论文中将其描述为一系列旨在使黑箱 AI 模型变得透明和可解释的技术,它能为模型的具体决策提供符合上下文的解释,阐明 AI 为何做出某一特定推荐。
反事实解释(Counterfactual Explanations):这是一种特定的 XAI 方法,它通过回答需要做出何种改变才能得到一个不同的结果?来帮助用户理解模型的决策边界。论文中将其简化为 What if?(如果……会怎样?)的交互形式。举个例子,假设一套 AI 系统拒绝了一笔贷款申请。一个常规的解释可能会说因为你的信用分太低。而一个反事实解释则会更具体地告诉你:如果你的年收入再增加 5000 元,或者你的信用卡债务减少 1 万元,那么这笔贷款申请就会被批准。这种解释方式不只是告诉你被拒绝的原因,还指明了通往成功结果的路径,让你能更清晰地理解模型决策的关键门槛在哪里,也为后续的改进提供了明确的指导。
研究问题
人工智能推荐系统在人力资源招聘领域的应用日益广泛,但其内部决策逻辑往往像一个黑箱,可能导致不公平或有偏见的结果,这使得模型的透明度和可解释性至关重要。可解释性 AI 技术旨在打开这个黑箱,向用户解释 AI 为何做出某个特定的推荐。然而,以往的研究大多集中在 XAI 技术本身,很少系统地探究非技术背景的用户(如人力资源经理)实际上如何感知和理解这些解释。特别是,用户自身的人工智能素养水平,即他们理解、评估和应用 AI 的能力,可能会极大地影响 XAI 的有效性,但这一关键联系尚未得到充分的实证研究。
因此,本研究旨在回答以下核心问题:一、当在招聘推荐系统中加入可解释性 AI 元素后,人力资源经理的主观感受会如何变化,并且这种变化是否会因其 AI 素养水平的不同而有所差异?二、同样地,加入可解释性 AI 元素后,人力资源经理对系统输出的客观理解准确性会如何变化,这种变化与他们的 AI 素养水平之间又存在怎样的关系?
研究方法
本研究采用了一项在线实验方法,共有 410 名德国的人力资源经理参与。首先,研究人员使用非专家 AI 素养评估量表(SNAIL)测量了参与者的 AI 素养水平,并将其分为低、中、高三个组别。实验过程中,所有参与者首先评估一个没有解释功能的基础版招聘推荐系统用户界面。随后,他们被随机分配到三个实验组中的一个,每组分别评估一个添加了特定可解释性 AI 元素的增强版界面。这三种 XAI 元素分别是:重要特征(Important Features),展示影响推荐结果的关键因素;反事实解释(Counterfactuals),以 What if 的形式展示改变何种条件会影响结果;模型标准(Model Criteria),总结模型进行排序的总体规则。研究通过李克特量表测量参与者对界面的主观感知(如信任度、透明度、有用性等),并通过回答五个关于界面信息的事实性问题来测量其客观理解的准确性。
研究发现
发现一:增加可解释性 AI 元素能够显著提升用户的主观感受,但这一积极效果主要体现在中高 AI 素养的人力资源经理中。研究数据显示,当在招聘推荐系统的用户界面中加入重要特征、反事实解释或模型标准这三种任何一种 XAI 解释后,AI 素养为中等或较高的参与者普遍认为界面的可信度、透明度、有用性和易懂性得到了提升,这种提升在统计上是显著的。然而,对于 AI 素养较低的用户群体,这些 XAI 元素的加入并未带来明显的主观体验改善,其前后评价差异在统计上不显著。这表明,要让用户从 XAI 中获益,首先需要用户具备一定的基础知识来理解和欣赏这些解释。XAI 并非一个能自动弥补知识鸿沟的工具,对于 AI 知识储备不足的用户来说,这些额外的解释信息可能无法被有效吸收,甚至被忽略,因此无法提升他们对系统的正面观感。
发现二:可解释性 AI 元素并不能普遍提升用户对系统信息的客观理解,甚至可能起到反效果。研究结果揭示了一个悖论:虽然主观感受变好了,但客观的判断准确率并未同步提升。在三种 XAI 解释中,只有重要特征这一种解释显著提升了高 AI 素养用户的客观理解分数。对于中低 AI 素养的用户,该解释没有显著影响。更令人意外的是,反事实解释和模型标准这两种解释方法对所有水平的用户都产生了负面影响或没有帮助。例如,反事实解释导致低 AI 素养用户的理解准确率显著下降,而模型标准则导致所有三个素养层级的用户理解准确率均显著下降。这说明,看似有帮助的解释信息,如果设计不当或过于复杂,反而会干扰用户的判断,造成信息过载,导致他们做出更不准确的解读。这挑战了解释越多越好的普遍假设。
发现三:高 AI 素养的用户可能存在过度自信的风险。研究观察到一个现象,尽管高 AI 素养群体在面对重要特征解释时,是唯一一个客观理解能力显著提升的群体,但他们在所有实验组的基线测试中(即评估无解释的界面时),客观理解的得分却出人意料地低于其它组别。结合他们在添加 XAI 后主观感受的显著提升,这表明他们可能高估了自己的理解能力。换言之,他们强烈的自我认知和自信心,与他们实际的、尤其是在没有辅助解释时的客观表现并不匹配。这种过度自信在实际工作中是危险的,因为它可能导致人力资源经理在没有完全理解 AI 推荐逻辑的情况下,仅凭主观上的信任就做出关键的招聘决策。这强调了单纯依赖自我报告的 AI 素养是不可靠的,并且在设计 AI 系统和培训时,需要警惕并设法校准用户的这种认知偏差。
Kalff, Y., & Simbeck, K. (2025). _Explained, yet misunderstood: How AI Literacy shapes HR Managers’ interpretation of User Interfaces in Recruiting Recommender Systems_ (No. arXiv: 2509.06475). arXiv. https://doi.org/10.48550/arXiv.2509.06475
Comments ()