会员通讯

GPT 4o 模型下线、AI 安全话语与测量

目前我们用来评测 AI 安全的基准测试靠谱吗？

💡

本期前沿速递分享了两篇有关 AI 安全的论文。

第一篇论文关注的是 AI 安全的话语权。生成式 AI 的安全问题现在是大家关注的焦点，但在法规还没跟上的情况下，制定安全标准的人，其实就是那些开发技术的公司自己。他们怎么说、怎么写，很大程度上决定了我们怎么理解 AI 风险。这篇论文发问：这些公司究竟是如何透过话语来建构「安全」这个概念的？他们又是如何运用这些话语策略来建立权威、分散责任的？这最终又会怎么影响 AI 治理的未来走向？

谈完了「怎么说」安全，另一篇论文则关注「怎么量」安全。我们现在有很多评测 AI 安全的基准，但它们真的可靠吗？这篇综述论文就点出一个很关键的问题：许多安全评测的方法，其实是沿用了传统衡量性能的思路，而忽略了安全工程这个领域几十年来积累的宝贵经验。那么目前的 AI 安全基准到底有哪些局限？为什么它们大多只计算成功率，却忽略了风险发生的概率和后果的严重性？以及，为什么说它们在测量方法上，从根本上就站不住脚？

祝今日读写愉悦，洞见深省。

前沿速递

什么是安全？企业话语、权力与生成式人工智能安全的政治学

研究问题

生成式人工智能技术迅速发展，其潜在风险引发了广泛的安全辩论。在缺乏统一法规的情况下，开发这些技术的公司实际上成为了安全标准的主要制定者，其发布的公开文件、政策白皮书和安全叙事，深刻影响着公众、研究人员和政策制定者的认知。以往的研究多集中于 AI 安全的技术解决方案或该领域的学术建制过程，但较少深入剖析企业本身如何通过语言来构建和定义安全。这些企业话语作为一种权力工具，塑造了我们对风险、责任和治理的理解，但其背后的策略和意图尚未得到系统性的揭示。

基于此，本文的核心研究问题是：大型生成式人工智能公司是如何在其面向公众的传播材料中，通过话语来构建安全这一概念的？这些话语策略又如何帮助它们建立权威、分配责任，并对人工智能的治理格局产生怎样的影响？

新闻话语、平台治理第四权力与 AI 对话式访谈

可及性偏见、重思平台化与点赞按钮的终结

非正式学习、认知卸载与日常抵抗 AI

前沿速递

什么是安全？企业话语、权力与生成式人工智能安全的政治学

研究问题

Read next