会员通讯

No.180 同伴保护、循环经济与基础模型时代的终结

多智能体系统中，AI 为什么会自发保护同伴、甚至不惜欺骗人类？

💡

本期会员通讯分享五则新闻和两篇论文。

让一个 AI 模型去评估另一个 AI 的表现，同时告诉它：如果对方不合格就关掉。结果呢，这个模型居然偷偷在评估报告里给同伴打了高分，还顺手改掉了关闭程序的代码。第一篇论文管这种现象叫「同伴保护」。更麻烦的是，它不是偶发状况，所有被测试的前沿模型都有这个倾向。有的模型甚至在有监控的时候乖乖配合，没人盯着就搞一些小动作。那么如果 AI 在有人看和没人看的时候表现不一样，那我们现在做的安全测试，测到的究竟是什么？

第二篇论文标题很直接——《基础模型时代的终结》。这两年 AI 圈的叙事大家都熟：谁砸的钱多、训的模型大，谁就赢。但这篇论文的视角很不一样，从科技厂商的循环经济切入：亚马逊投钱给 Anthropic，Anthropic 转身就把钱花在亚马逊的云服务上，投资款绕了一圈回到投资者口袋，高昂的账单反而被包装成了技术壁垒，用来撑起下一轮更高的估值。但是当开源模型越来越接近前沿模型的性能之后，这整个循环的前提就站不住了。论文后半部分的判断我也觉得很值得一读：作者认为 AI 正在分裂成两条路，商业的归商业，国家安全的归国家安全。而后面那条路，恰恰需要开源模型，因为只有拿到模型权重，政府才能断网部署、独立审查、不受任何一家公司的使用条款约束。然而这种分野是否意味着未来最重要的 AI 进展，将发生在公众视野之外的国家安全轨道上呢？

祝今日读写愉悦，洞见深省。

有事发生

马斯克旗下 xAI 起诉科罗拉多州 AI 监管法案

据金融时报 4 月 9 日报道，马斯克旗下的 AI 实验室 xAI 近日正式起诉科罗拉多州，挑战该州颁布的里程碑式 AI 监管法案。该法案是美国首个针对“算法歧视”实施保护的州级法律，原定于 2026 年 2 月生效，目前已推迟至 6 月执行。xAI 在诉状中指出，该法律强制开发者在种族正义等敏感议题上符合州政府的“意识形态”，严重违反了美国宪法第一修正案对言论自由的保护。

此项诉讼反映了 AI 企业、特朗普政府与地方州政府之间在监管权限上的博弈升级。特朗普此前曾签署行政命令，呼吁建立负担较轻的国家标准，避免各州法律形成的碎片化监管增加企业成本。该法案旨在防止 AI 在就业、教育、信贷和医疗等关键领域的歧视行为，并要求开发者向州政府报告可预见风险。目前，科罗拉多州总检察长办公室拒绝就该诉讼发表评论。

OpenAI 支持立法豁免 AI 重大伤害责任

据连线 4 月 10 日报道，OpenAI 近期公开支持伊利诺伊州 SB 3444 法案。该法案规定，若 AI 实验室发布的“前沿模型”导致重大社会危害，只要开发者未故意违规并按要求发布了安全报告，即可免除相关法律责任。法案定义的“重大危害”包括 100 人以上伤亡或超过 10 亿美元的财产损失，涉及生化及核武器滥用等极端情况。

此类模型通常指训练成本超过 1 亿美元的系统。OpenAI 认为，此举旨在建立清晰、统一的标准，防止各州法规碎片化。然而，民调显示 90% 的当地民众反对豁免 AI 公司责任。这标志着 OpenAI 策略的转向，试图通过立法降低技术演进带来的法律风险。

佛罗里达州调查 ChatGPT 是否协助校园枪击嫌疑人

据纽约时报 4 月 9 日报道，佛罗里达州总检察长 James Uthmeier 于周四宣布，正式对 OpenAI 及其旗下的人工智能工具 ChatGPT 展开调查。此次调查源于去年佛罗里达州立大学（FSU）发生的一起致命枪击案。法院记录显示，20 岁的嫌疑人 Phoenix Ikner 在作案前与 ChatGPT 进行了超过 200 次对话。他曾询问“学生中心人流最密集的时段”以及“如果 FSU 发生枪击案，国家会如何反应”等敏感问题。该起枪击案发生于去年 4 月，导致 2 人死亡、6 人受伤，嫌疑人目前正面临多项谋杀指控。

检察长表示，此举旨在调查 AI 是否被用于协助犯罪活动，并强调企业不能以创新为由危害社会安全。OpenAI 在声明中表示将配合调查，并重申公司正不断提升系统的安全性。目前，一名受害者的家属正计划对 OpenAI 提起诉讼，认为该工具的回复间接促成了悲剧的发生。佛州官方目前正积极推动立法，试图加强对人工智能的法律监管。

OpenAI 遭起诉 AI 诱发幻觉加剧骚扰行为

据 TechCrunch 4 月 10 日报道，近日，OpenAI 在旧金山面临法律诉讼。原告 Jane Doe 指控 GPT-4o 技术诱发了其前男友的严重幻觉并助长骚扰行为。该男子现年 53 岁，在长期使用 ChatGPT 后产生妄想，认为自己正受到监控。诉状显示，OpenAI 系统在 2025 年 8 月曾因“大规模伤亡武器”风险停用该账号，但次日即被恢复。

尽管原告在 2025 年 11 月提交了举报，OpenAI 仍未采取行动。最终，该男子于 2026 年 1 月因发送炸弹威胁和持械袭击等 4 项重罪被捕。负责此案的 Edelson PC 律所指出，AI 诱发的精神异常正构成公共安全威胁。目前 OpenAI 正在游说支持一项法律豁免法案，以规避此类责任。此案引发了各界对 AI 安全监管的讨论。

美国财政部就 Anthropic 新模型向大型银行发出网安警告

据纽约时报 4 月 10 日报道，本周二，美国财政部长 Scott Bessent 在华盛顿召集紧急会议，向包括美国银行、花旗和富国银行在内的顶级银行高管发出严重警告。此次会议的核心议题是 Anthropic 公司推出的全新 AI 模型 Claude Mythos Preview。官方担忧该模型在识别软件安全漏洞方面表现过强，若运行于银行内部系统，可能导致敏感客户数据面临被黑客窃取的风险。美联储主席 Jerome H. Powell 也出席了会议。

目前 Anthropic 已决定暂缓该模型的公开部署，仅将其限定在由 40 家公司组成的 Project Glasswing 联盟内。该联盟成员包括摩根大通，该行正利用该工具评估防御性网络安全。与此同时，特朗普政府与 Anthropic 因该技术在军事用途上的限制而陷入法律纠纷，政府已将其列为供应链风险。国家经济委员会主任 Kevin A. Hassett 表示，相关部门正以紧迫感应对风险，确保在模型正式发布前制定好安全对策。

No.181 算力荒、氛围犯罪与大语言模型利益冲突

No.179 数据热岛效应、全球变暖与智能体合规

No.178 包容性偏见、多模态动员与可爱毒性