GPT 4o 模型下线、AI 安全话语与测量
目前我们用来评测 AI 安全的基准测试靠谱吗?
💡
本期前沿速递分享了两篇有关 AI 安全的论文。
第一篇论文关注的是 AI 安全的话语权。生成式 AI 的安全问题现在是大家关注的焦点,但在法规还没跟上的情况下,制定安全标准的人,其实就是那些开发技术的公司自己。他们怎么说、怎么写,很大程度上决定了我们怎么理解 AI 风险。这篇论文发问:这些公司究竟是如何透过话语来建构「安全」这个概念的?他们又是如何运用这些话语策略来建立权威、分散责任的?这最终又会怎么影响 AI 治理的未来走向?
谈完了「怎么说」安全,另一篇论文则关注「怎么量」安全。我们现在有很多评测 AI 安全的基准,但它们真的可靠吗?这篇综述论文就点出一个很关键的问题:许多安全评测的方法,其实是沿用了传统衡量性能的思路,而忽略了安全工程这个领域几十年来积累的宝贵经验。那么目前的 AI 安全基准到底有哪些局限?为什么它们大多只计算成功率,却忽略了风险发生的概率和后果的严重性?以及,为什么说它们在测量方法上,从根本上就站不住脚?
祝今日读写愉悦,洞见深省。
第一篇论文关注的是 AI 安全的话语权。生成式 AI 的安全问题现在是大家关注的焦点,但在法规还没跟上的情况下,制定安全标准的人,其实就是那些开发技术的公司自己。他们怎么说、怎么写,很大程度上决定了我们怎么理解 AI 风险。这篇论文发问:这些公司究竟是如何透过话语来建构「安全」这个概念的?他们又是如何运用这些话语策略来建立权威、分散责任的?这最终又会怎么影响 AI 治理的未来走向?
谈完了「怎么说」安全,另一篇论文则关注「怎么量」安全。我们现在有很多评测 AI 安全的基准,但它们真的可靠吗?这篇综述论文就点出一个很关键的问题:许多安全评测的方法,其实是沿用了传统衡量性能的思路,而忽略了安全工程这个领域几十年来积累的宝贵经验。那么目前的 AI 安全基准到底有哪些局限?为什么它们大多只计算成功率,却忽略了风险发生的概率和后果的严重性?以及,为什么说它们在测量方法上,从根本上就站不住脚?
祝今日读写愉悦,洞见深省。
前沿速递
什么是安全?企业话语、权力与生成式人工智能安全的政治学
研究问题
生成式人工智能技术迅速发展,其潜在风险引发了广泛的安全辩论。在缺乏统一法规的情况下,开发这些技术的公司实际上成为了安全标准的主要制定者,其发布的公开文件、政策白皮书和安全叙事,深刻影响着公众、研究人员和政策制定者的认知。以往的研究多集中于 AI 安全的技术解决方案或该领域的学术建制过程,但较少深入剖析企业本身如何通过语言来构建和定义安全。这些企业话语作为一种权力工具,塑造了我们对风险、责任和治理的理解,但其背后的策略和意图尚未得到系统性的揭示。
基于此,本文的核心研究问题是:大型生成式人工智能公司是如何在其面向公众的传播材料中,通过话语来构建安全这一概念的?这些话语策略又如何帮助它们建立权威、分配责任,并对人工智能的治理格局产生怎样的影响?