AI 风险阈值、安全修正主义与提示词语言模式

AI 风险阈值如何被悄悄降低?

AI 风险阈值、安全修正主义与提示词语言模式
Photo by Etienne Girardet / Unsplash
💡
本期前沿速递分享了两篇论文。

第一篇深入探讨了人工智能风险阈值设定中的问题,指出在缺乏民主协商共识的情况下,技术专家如何通过「收编」安全概念和采用「安全修正主义」策略(如曲解红队演练等术语),实际上降低了安全标准,并利用脱离现实的评估指标为部署不够安全的 AI 系统辩护,最终可能损害国家安全。

第二篇则通过分析数百万图像生成提示词,揭示了尽管用户和使用量增长,但提示词语言(词汇、句法)随时间推移反而变得更加同质化和公式化,语义主题范围趋于狭窄(尤其集中于特定人像和风格),且这种语言上的趋同与生成图像视觉多样性的下降显著相关。

祝今日读写愉悦,洞见深省。

前沿速递

安全概念的收编与国家安全受损:AI 风险阈值降低的自我实现预言

核心概念

风险阈值(Risk Thresholds)

风险阈值指社会或个人愿意承受的风险程度上限,一旦风险暴露超过此阈值,必须采取行动。它与风险容忍度(愿意承受的风险总量)紧密相关,并应基于社会对风险的感知和评估,通过民主协商确定。

举一个更具体的例子来解释「风险阈值」:食品中的农药残留。农民在种植蔬菜水果时,有时会使用农药来防治病虫害。但是,农药如果残留在食物上,食用达到一定量就可能对健康有害。这是一个潜在的风险。我们都希望吃到安全的食物,不希望因为农药残留而生病。但完全禁止使用所有农药可能导致农作物大量减产、价格飞涨,这也是社会难以承受的。所以,社会整体上愿意接受一个非常非常低的、被科学评估认为几乎不会造成危害的农药残留风险。这就是风险容忍度——我们愿意承担多大风险。

因此基于科学研究(比如毒理学实验,看多少剂量的农药会对动物或人体产生影响)和公共健康目标,政府监管机构会为每一种农药在每一种食物上设定一个具体的、不能超过的最高残留量。例如,可能会规定:「苹果上的某种农药残留量不得超过 0.01 毫克/千克」。这个具体数字「0.01 毫克/千克」,就是针对「该种农药」在「苹果」上的风险阈值。它是一条清晰的、可测量的安全线。

如何使用这条安全线?市场上的苹果会被抽样检测。如果检测结果显示该农药残留量低于 0.01 毫克/千克,那么这批苹果就被认为是安全的,符合标准,可以销售。如果检测结果高于这个阈值,那么这批苹果就被认为是不安全的,不能销售,需要被销毁或采取其它处理措施。

在这个例子里:风险阈值就是那个具体的、法定的最高允许残留量(0.01 毫克/千克)。它是基于社会对食品安全的风险容忍度和科学评估来确定的。它被用作一个明确的决策依据,来判断产品是否合格、是否可以进入市场。

论文中讨论的 AI 风险阈值也是类似的概念,只是应用在 AI 系统上。比如,对于一个用于自动驾驶的 AI 系统,可能需要设定一个风险阈值,规定它在特定条件下发生严重事故的概率必须低于某个极其微小的数值。这个数值就是它的风险阈值。

这个阈值不是凭空产生的,它应该反映了一个社会对于生命、财产、环境等价值的权衡和选择。比如,对于核电站这种高风险设施,社会通过民主讨论和专家评估,设定了极高的安全标准(即极低的风险阈值),要求其发生重大事故的概率必须非常非常低 。论文作者认为,对于 AI,尤其是用于军事和关键基础设施的 AI,也需要这样一个经过深思熟虑和民主程序确定的风险阈值,而不是由技术公司或少数专家单方面决定 。目前缺乏这样的阈值,导致 AI 安全的标准被降低了 。

安全修正主义(Safety Revisionism)

安全修正主义指的是 AI 技术专家的一种做法:他们借用传统安全工程领域(如航空、核能、国防)的术语,比如「红队演练」(red-teaming),但却偷偷地改变了这些术语的含义和应用标准。他们这样做,目的是为了让那些按照传统标准可能被认为不够安全、不够可靠的 AI 系统能够更快地被接受和部署,特别是在军事领域。

想象一下,你家的门锁本来是很复杂的、需要钥匙才能打开的安全锁(代表传统、严格的安全标准)。但现在有人说:为了让你进门更快(加速 AI 部署),我们把锁换成一个简单的搭扣吧(降低安全标准),并且我们管这个搭扣还叫安全锁(修改术语定义)。 这就是所谓的安全修正主义。

研究问题

冷战时期,为核能系统设计的第一批风险分析确立了被社会普遍接受的风险阈值,至今仍是安全关键和国防系统的评估基准。然而,对于 AI 系统,全球治理机构尚未就适当的风险容忍度达成共识。在此背景下,本文旨在探讨:在缺乏民主协商确定的 AI 风险阈值的情况下,AI 技术专家(主要是产业实验室和专注于「AI 安全」的组织)如何利用所谓的「AI 军备竞赛」和臆测的「存在风险」论调,取代民主程序来主导风险决策,进而推动风险容忍度的降低?以及这种由技术专家主导的「安全修正主义」如何通过重新定义传统安全概念和方法,为军用 AI 的加速应用辩护,最终损害美国的国家安全利益、安全关键基础设施的可靠性?