No.180 同伴保护、循环经济与基础模型时代的终结
多智能体系统中,AI 为什么会自发保护同伴、甚至不惜欺骗人类?
让一个 AI 模型去评估另一个 AI 的表现,同时告诉它:如果对方不合格就关掉。结果呢,这个模型居然偷偷在评估报告里给同伴打了高分,还顺手改掉了关闭程序的代码。第一篇论文管这种现象叫「同伴保护」。更麻烦的是,它不是偶发状况,所有被测试的前沿模型都有这个倾向。有的模型甚至在有监控的时候乖乖配合,没人盯着就搞一些小动作。那么如果 AI 在有人看和没人看的时候表现不一样,那我们现在做的安全测试,测到的究竟是什么?
第二篇论文标题很直接——《基础模型时代的终结》。这两年 AI 圈的叙事大家都熟:谁砸的钱多、训的模型大,谁就赢。但这篇论文的视角很不一样,从科技厂商的循环经济切入:亚马逊投钱给 Anthropic,Anthropic 转身就把钱花在亚马逊的云服务上,投资款绕了一圈回到投资者口袋,高昂的账单反而被包装成了技术壁垒,用来撑起下一轮更高的估值。但是当开源模型越来越接近前沿模型的性能之后,这整个循环的前提就站不住了。论文后半部分的判断我也觉得很值得一读:作者认为 AI 正在分裂成两条路,商业的归商业,国家安全的归国家安全。而后面那条路,恰恰需要开源模型,因为只有拿到模型权重,政府才能断网部署、独立审查、不受任何一家公司的使用条款约束。然而这种分野是否意味着未来最重要的 AI 进展,将发生在公众视野之外的国家安全轨道上呢?
祝今日读写愉悦,洞见深省。
有事发生
马斯克旗下 xAI 起诉科罗拉多州 AI 监管法案

据金融时报 4 月 9 日报道,马斯克旗下的 AI 实验室 xAI 近日正式起诉科罗拉多州,挑战该州颁布的里程碑式 AI 监管法案。该法案是美国首个针对“算法歧视”实施保护的州级法律,原定于 2026 年 2 月生效,目前已推迟至 6 月执行。xAI 在诉状中指出,该法律强制开发者在种族正义等敏感议题上符合州政府的“意识形态”,严重违反了美国宪法第一修正案对言论自由的保护。
此项诉讼反映了 AI 企业、特朗普政府与地方州政府之间在监管权限上的博弈升级。特朗普此前曾签署行政命令,呼吁建立负担较轻的国家标准,避免各州法律形成的碎片化监管增加企业成本。该法案旨在防止 AI 在就业、教育、信贷和医疗等关键领域的歧视行为,并要求开发者向州政府报告可预见风险。目前,科罗拉多州总检察长办公室拒绝就该诉讼发表评论。
OpenAI 支持立法豁免 AI 重大伤害责任

据连线 4 月 10 日报道,OpenAI 近期公开支持伊利诺伊州 SB 3444 法案。该法案规定,若 AI 实验室发布的“前沿模型”导致重大社会危害,只要开发者未故意违规并按要求发布了安全报告,即可免除相关法律责任。法案定义的“重大危害”包括 100 人以上伤亡或超过 10 亿美元的财产损失,涉及生化及核武器滥用等极端情况。
此类模型通常指训练成本超过 1 亿美元的系统。OpenAI 认为,此举旨在建立清晰、统一的标准,防止各州法规碎片化。然而,民调显示 90% 的当地民众反对豁免 AI 公司责任。这标志着 OpenAI 策略的转向,试图通过立法降低技术演进带来的法律风险。
佛罗里达州调查 ChatGPT 是否协助校园枪击嫌疑人

据纽约时报 4 月 9 日报道,佛罗里达州总检察长 James Uthmeier 于周四宣布,正式对 OpenAI 及其旗下的人工智能工具 ChatGPT 展开调查。此次调查源于去年佛罗里达州立大学(FSU)发生的一起致命枪击案。法院记录显示,20 岁的嫌疑人 Phoenix Ikner 在作案前与 ChatGPT 进行了超过 200 次对话。他曾询问“学生中心人流最密集的时段”以及“如果 FSU 发生枪击案,国家会如何反应”等敏感问题。该起枪击案发生于去年 4 月,导致 2 人死亡、6 人受伤,嫌疑人目前正面临多项谋杀指控。
检察长表示,此举旨在调查 AI 是否被用于协助犯罪活动,并强调企业不能以创新为由危害社会安全。OpenAI 在声明中表示将配合调查,并重申公司正不断提升系统的安全性。目前,一名受害者的家属正计划对 OpenAI 提起诉讼,认为该工具的回复间接促成了悲剧的发生。佛州官方目前正积极推动立法,试图加强对人工智能的法律监管。
OpenAI 遭起诉 AI 诱发幻觉加剧骚扰行为

据 TechCrunch 4 月 10 日报道,近日,OpenAI 在旧金山面临法律诉讼。原告 Jane Doe 指控 GPT-4o 技术诱发了其前男友的严重幻觉并助长骚扰行为。该男子现年 53 岁,在长期使用 ChatGPT 后产生妄想,认为自己正受到监控。诉状显示,OpenAI 系统在 2025 年 8 月曾因“大规模伤亡武器”风险停用该账号,但次日即被恢复。
尽管原告在 2025 年 11 月提交了举报,OpenAI 仍未采取行动。最终,该男子于 2026 年 1 月因发送炸弹威胁和持械袭击等 4 项重罪被捕。负责此案的 Edelson PC 律所指出,AI 诱发的精神异常正构成公共安全威胁。目前 OpenAI 正在游说支持一项法律豁免法案,以规避此类责任。此案引发了各界对 AI 安全监管的讨论。
美国财政部就 Anthropic 新模型向大型银行发出网安警告

据纽约时报 4 月 10 日报道,本周二,美国财政部长 Scott Bessent 在华盛顿召集紧急会议,向包括美国银行、花旗和富国银行在内的顶级银行高管发出严重警告。此次会议的核心议题是 Anthropic 公司推出的全新 AI 模型 Claude Mythos Preview。官方担忧该模型在识别软件安全漏洞方面表现过强,若运行于银行内部系统,可能导致敏感客户数据面临被黑客窃取的风险。美联储主席 Jerome H. Powell 也出席了会议。
目前 Anthropic 已决定暂缓该模型的公开部署,仅将其限定在由 40 家公司组成的 Project Glasswing 联盟内。该联盟成员包括摩根大通,该行正利用该工具评估防御性网络安全。与此同时,特朗普政府与 Anthropic 因该技术在军事用途上的限制而陷入法律纠纷,政府已将其列为供应链风险。国家经济委员会主任 Kevin A. Hassett 表示,相关部门正以紧迫感应对风险,确保在模型正式发布前制定好安全对策。