AI 评估、性别本质主义与分层算法
谁在评估 AI 的社会影响?
💡
本期前沿速递分享了两篇论文。
第一篇论文的问题意识很新鲜,讨论究竟是谁在评估 AI 的社会影响?开发者和独立机构的评估报告到底有什么不同?以及,为何在环境成本、劳工实践这些关键领域,我们几乎看不到任何评估报告?
另一篇论文批判机器学习中的生物性别本质主义,讨论医疗算法如何使用性别这个变量?当科学本身还存有争议时,这种做法会带来什么问题?它又如何悄悄地强化了刻板、二元的性别观念?
祝今日读写愉悦,洞见深省。
第一篇论文的问题意识很新鲜,讨论究竟是谁在评估 AI 的社会影响?开发者和独立机构的评估报告到底有什么不同?以及,为何在环境成本、劳工实践这些关键领域,我们几乎看不到任何评估报告?
另一篇论文批判机器学习中的生物性别本质主义,讨论医疗算法如何使用性别这个变量?当科学本身还存有争议时,这种做法会带来什么问题?它又如何悄悄地强化了刻板、二元的性别观念?
祝今日读写愉悦,洞见深省。
前沿速递
谁在评估人工智能的社会影响?描绘第一方与第三方评估的覆盖范围与差距
核心概念
第一方评估与第三方评估(First-Party vs. Third-Party ):在人工智能评估的语境下,第一方评估指由模型开发者自身执行并发布的评估。这些评估通常作为官方文档,如模型卡或技术报告的一部分,随模型一同发布。第三方评估则是由独立于模型开发的外部实体进行的评估,这些实体包括学术研究人员、非营利组织、媒体或独立的商业公司。
研究问题
人工智能基础模型的能力日益强大,应用也愈发广泛,这促使全球治理框架开始依赖各类评估来衡量其风险。尽管模型的能力评测很普遍,但关于其社会影响,如偏见、隐私、环境成本和劳工实践等方面的评估报告却十分零散且不规范。以往的研究虽然已经注意到这些报告的缺失,但大多只关注特定方面或少数几个模型,未能系统地描绘出整个评估生态的全貌,特别是未能清晰地区分和比较模型开发者自身(第一方)与独立评估机构(第三方)各自扮演的角色和评估重点,因此我们对谁在进行评估、评估了什么以及为何存在评估空白等问题缺乏全面的认识。
基于以上背景,本论文旨在回答以下核心问题:究竟是谁在主导人工智能的社会影响评估?模型开发者(第一方)和独立研究者(第三方)在评估报告的覆盖范围、详细程度和侧重点上有何不同?随着时间推移,这些社会影响评估报告的趋势如何演变?又是什么样的组织动机、技术障碍或结构性因素,共同造成了当前评估生态中存在的显著空白?