对齐漂移、MAD–BAD–SAD 框架与制度性 AI

如何理解作为社会技术系统的 AI 智能体?

对齐漂移、MAD–BAD–SAD 框架与制度性 AI
Photo by ayumi kubo / Unsplash
💡
本期前沿速递分享了两篇论文。

第一篇综述论文探讨了智能体与社会的复杂互动。当 AI agent 不再只是工具,它的技术设计如何与社会规范相互影响?这些互动又会带来哪些我们没想到的道德困境?这篇虽然没有提供什么新观点,但提供了一个整合框架对我们理解当前的研究动态特别有帮助。

另一篇论文则挑战了主流的 AI 对齐思路。为什么 AI 聚在一起反而会学坏?既然从内部改造 AI 那么难,我们能否从外部建立制度来约束它们?这个制度性 AI 的想法还蛮巧妙的,把安全问题从改造单个智能体转向设计环境,或许这才是更务实的解方。

祝今日读写愉悦,洞见深省。

前沿速递

智能体 AI 的社会技术层面分析

核心概念

智能体 AI(Agentic AI):这是一种具备高度自主性的人工智能系统,它不仅仅是执行预设指令的工具,而是能够独立地设定目标、进行推理、制定并执行多步骤计划,以在动态和复杂的环境中实现长期目标,整个过程几乎无需人类持续干预。

社会技术系统(Socio-technical System):这一理论框架强调任何技术系统都不能孤立地看待,而是必须将其视为与社会元素(如人、组织结构、文化规范、法律法规)紧密交织、相互依赖的整体。系统的最终行为和影响是由技术和社会因素共同塑造和决定的。以自动驾驶汽车为例,它不仅仅是一个包含传感器、算法和执行器的技术产品。它更是一个社会技术系统,其成功运行深度依赖于社会因素:需要有明确的交通法规来界定其路权和责任,需要驾驶员和其它道路使用者对其行为有信任和预期,需要城市为其改造基础设施,还需要保险和法律体系来处理事故问责。如果只关注其技术性能而忽略这些社会维度,自动驾驶汽车就无法真正融入并安全地服务于社会。

研究问题

当前对智能体 AI 的研究主要集中在其技术基础,例如系统架构、推理机制和应用性能等方面。尽管部分研究开始关注伦理和法律问题,但这些讨论往往是孤立的,未能将技术设计决策与更广泛的社会、伦理、经济和环境背景进行系统性的关联。现有文献普遍缺乏一个整合的视角,来深入分析技术选择如何与社会结构、组织实践和治理框架相互作用,从而共同决定智能体 AI 的行为和长远影响。

基于上述研究空白,本论文旨在回答以下核心问题:智能体 AI 的核心技术组件是如何与社会、伦理和治理等外部环境相互作用并共同产生影响的?可以构建一个什么样的分析框架,来系统性地审视这些相互作用所带来的道德困境、系统性风险和社会接受度挑战,从而为智能体 AI 的负责任设计、部署和治理提供指导?