基建资源、学术鸿沟与模型透明度指数
AI 安全和伦理社群之间的学术鸿沟有多深?
第一篇论文的问题意识很独到。你可能也有感觉到 AI 安全和伦理这两个圈子好像各说各话,前者关注长远生存风险、失控行为等问题;后者则聚焦当下社会偏见、算法公平性等即时伤害。这两个社区虽然目标相似,但在研究方法、关注重点和学术背景上存在巨大差异。但这种隔阂到底有多深?学者们是真的老死不相往来,还是只是我们的错觉?连接这两个领域的桥梁,又有多脆弱呢?
另一篇是斯坦福大学每年都会出的基础模型透明度指数报告。AI 公司天天喊着要负责任,那它们到底有多透明?是越来越开放,还是越来越像个黑盒子?与往年相比,行业整体透明度是进步了还是倒退了?不同类型的公司之间是否存在显著的透明度差异?这份报告给了我们一些残酷但又不得不面对的答案。
祝今日读写愉悦,洞见深省。
前沿速递
弥合差距!通往统一人工智能安全与伦理研究的路径
核心概念
同质性(Homophily):在学术合作网络中,同质性指的是研究者倾向于与和自己属于同一类别或领域的其它人合作的现象。论文中,它被用来量化 AI 安全和 AI 伦理这两个社区内部合作的紧密程度,即计算有多少合作关系是发生在安全 - 安全或伦理 - 伦理研究者之间,而不是安全 - 伦理之间。
桥接连通性(Bridge Connectivity):这个概念描述了连接两个独立社群的网络路径的特性,特别是这些路径的集中度和脆弱性。在论文的语境中,它衡量的是 AI 安全和伦理这两个孤岛是如何被连接起来的。
分心论(The Distraction Argument):这是论文中提到的,导致 AI 安全与伦理两个社区产生紧张关系的一个核心论点。它主要由伦理社区提出,批评安全社区过度关注遥远的、概率较低的生存风险,例如通用人工智能失控导致人类灭绝的场景。这种批评认为,对这些未来风险的过度强调,会分散和消耗有限的资源、人才和公众注意力,从而忽视了当前已经发生且对边缘化群体造成实际伤害的紧迫问题,如算法偏见、数据歧视和隐私侵犯。
研究问题
人工智能系统在追求有益的同时,必须确保其无害,这催生了人工智能对齐(alignment)研究。然而,相关研究工作已分化为两个相对独立的阵营:一是关注长远生存风险、失控行为等问题的 AI 安全社区;二是聚焦当下社会偏见、算法公平性等即时伤害的 AI 伦理社区。这两个社区虽然目标相似,但在研究方法、关注重点和学术背景上存在巨大差异,形成了事实上的孤岛,阻碍了构建全面可信人工智能的进程。以往的讨论多为定性描述,缺乏大规模的实证证据来证实并刻画这种分裂的严重程度。
本论文的核心研究问题是:学术界中 AI 安全和 AI 伦理之间的分歧仅仅是话语层面的不同,还是反映了研究社区之间真实存在的、可量化的结构性隔离?如果是后者,这种学术隔离的具体结构特征是什么,其稳固性和连通性如何,又是哪些因素在维持这种分裂状态?