前沿|AI 风险阈值、安全修正主义与提示词语言模式

AI & 社会|前沿研究每日简报 2025-04-24

前沿|AI 风险阈值、安全修正主义与提示词语言模式
Photo by Etienne Girardet / Unsplash

核心概念

风险阈值(Risk Thresholds)

风险阈值指社会或个人愿意承受的风险程度上限,一旦风险暴露超过此阈值,必须采取行动。它与风险容忍度(愿意承受的风险总量)紧密相关,并应基于社会对风险的感知和评估,通过民主协商确定。

举一个更具体的例子来解释「风险阈值」:食品中的农药残留。农民在种植蔬菜水果时,有时会使用农药来防治病虫害。但是,农药如果残留在食物上,食用达到一定量就可能对健康有害。这是一个潜在的风险。我们都希望吃到安全的食物,不希望因为农药残留而生病。但完全禁止使用所有农药可能导致农作物大量减产、价格飞涨,这也是社会难以承受的。所以,社会整体上愿意接受一个非常非常低的、被科学评估认为几乎不会造成危害的农药残留风险。这就是风险容忍度——我们愿意承担多大风险。

因此基于科学研究(比如毒理学实验,看多少剂量的农药会对动物或人体产生影响)和公共健康目标,政府监管机构会为每一种农药在每一种食物上设定一个具体的、不能超过的最高残留量。例如,可能会规定:「苹果上的某种农药残留量不得超过 0.01 毫克/千克」。这个具体数字「0.01 毫克/千克」,就是针对「该种农药」在「苹果」上的风险阈值。它是一条清晰的、可测量的安全线。

如何使用这条安全线?市场上的苹果会被抽样检测。如果检测结果显示该农药残留量低于 0.01 毫克/千克,那么这批苹果就被认为是安全的,符合标准,可以销售。如果检测结果高于这个阈值,那么这批苹果就被认为是不安全的,不能销售,需要被销毁或采取其它处理措施。

在这个例子里:风险阈值就是那个具体的、法定的最高允许残留量(0.01 毫克/千克)。它是基于社会对食品安全的风险容忍度和科学评估来确定的。它被用作一个明确的决策依据,来判断产品是否合格、是否可以进入市场。

论文中讨论的 AI 风险阈值也是类似的概念,只是应用在 AI 系统上。比如,对于一个用于自动驾驶的 AI 系统,可能需要设定一个风险阈值,规定它在特定条件下发生严重事故的概率必须低于某个极其微小的数值。这个数值就是它的风险阈值。

这个阈值不是凭空产生的,它应该反映了一个社会对于生命、财产、环境等价值的权衡和选择。比如,对于核电站这种高风险设施,社会通过民主讨论和专家评估,设定了极高的安全标准(即极低的风险阈值),要求其发生重大事故的概率必须非常非常低 。论文作者认为,对于 AI,尤其是用于军事和关键基础设施的 AI,也需要这样一个经过深思熟虑和民主程序确定的风险阈值,而不是由技术公司或少数专家单方面决定 。目前缺乏这样的阈值,导致 AI 安全的标准被降低了 。