会员通讯

AI 评估、性别本质主义与分层算法

谁在评估 AI 的社会影响？

💡

本期前沿速递分享了两篇论文。

第一篇论文的问题意识很新鲜，讨论究竟是谁在评估 AI 的社会影响？开发者和独立机构的评估报告到底有什么不同？以及，为何在环境成本、劳工实践这些关键领域，我们几乎看不到任何评估报告？

另一篇论文批判机器学习中的生物性别本质主义，讨论医疗算法如何使用性别这个变量？当科学本身还存有争议时，这种做法会带来什么问题？它又如何悄悄地强化了刻板、二元的性别观念？

祝今日读写愉悦，洞见深省。

前沿速递

谁在评估人工智能的社会影响？描绘第一方与第三方评估的覆盖范围与差距

核心概念

第一方评估与第三方评估（First-Party vs. Third-Party ）：在人工智能评估的语境下，第一方评估指由模型开发者自身执行并发布的评估。这些评估通常作为官方文档，如模型卡或技术报告的一部分，随模型一同发布。第三方评估则是由独立于模型开发的外部实体进行的评估，这些实体包括学术研究人员、非营利组织、媒体或独立的商业公司。

研究问题

人工智能基础模型的能力日益强大，应用也愈发广泛，这促使全球治理框架开始依赖各类评估来衡量其风险。尽管模型的能力评测很普遍，但关于其社会影响，如偏见、隐私、环境成本和劳工实践等方面的评估报告却十分零散且不规范。以往的研究虽然已经注意到这些报告的缺失，但大多只关注特定方面或少数几个模型，未能系统地描绘出整个评估生态的全貌，特别是未能清晰地区分和比较模型开发者自身（第一方）与独立评估机构（第三方）各自扮演的角色和评估重点，因此我们对谁在进行评估、评估了什么以及为何存在评估空白等问题缺乏全面的认识。

基于以上背景，本论文旨在回答以下核心问题：究竟是谁在主导人工智能的社会影响评估？模型开发者（第一方）和独立研究者（第三方）在评估报告的覆盖范围、详细程度和侧重点上有何不同？随着时间推移，这些社会影响评估报告的趋势如何演变？又是什么样的组织动机、技术障碍或结构性因素，共同造成了当前评估生态中存在的显著空白？

新闻话语、平台治理第四权力与 AI 对话式访谈

可及性偏见、重思平台化与点赞按钮的终结

非正式学习、认知卸载与日常抵抗 AI

前沿速递

谁在评估人工智能的社会影响？描绘第一方与第三方评估的覆盖范围与差距

核心概念

研究问题

Read next