混合治理、自动化偏见与信任校准

AI 训练数据该如何混合治理?

混合治理、自动化偏见与信任校准
Photo by Annie Spratt / Unsplash
💡
本期前沿速递分享了两篇论文。

第一篇论文带我们审视生成式 AI 光鲜外表下的一个根本性问题:当模型的智慧源于未经授权的训练材料时,我们该如何面对其与生俱来的法律与伦理困境?单纯依靠技术或法律似乎都陷入了困境,那么,是否存在一种将技术约束与社会监督相结合的混合之道?

第二篇综述论文探讨了人机协作中的一个认知陷阱。当我们越来越依赖 AI 的建议时,一种名为自动化偏见的认知惰性可能正在悄悄侵蚀我们的判断力,而更有趣的是,旨在让 AI 更透明的解释,为何有时反而会让我们错上加错?

祝今日读写愉悦,洞见深省。

前沿速递

论生成式人工智能的训练问题:一种结合技术与非技术对齐策略的混合方法

核心概念

混合治理框架(Hybrid Governance Framework):这是一种为应对生成式人工智能挑战而提出的综合性监管模型。它主张不能单独依赖某一种策略,而是要将技术性的设计方案与非技术性的制度策略相结合。技术方案如同为系统内置的「安全带」,例如通过加密水印技术追踪数据来源、利用算法分析模型输出与受版权保护材料的相似度等。制度策略则像是社会层面的「交通法规」,包括制定明确的版权法律、建立独立的审计机构以及推动行业标准等。举例来说,就像管理自动驾驶汽车一样,我们不能只靠车辆自身的避障系统(技术方案),还需要有明确的交通法规、事故责任认定规则和保险制度(制度策略)。混合治理框架就是将这两种方法融合,确保人工智能的开发既有内在的技术约束,又有外部的法律和社会监督,从而在鼓励创新的同时有效防范风险。

系统状态空间理论(System-state (phase) space theory):这是论文用来论证为何「彻底解决」人工智能对齐问题是不可能的理论依据。该理论源于物理学和计算科学,它指出,任何一个系统的「状态空间」是指该系统所有可能状态的总和。对于一个机器或物理系统,其状态空间通常是固定的、可以预先确定的。但人类社会系统,特别是其伦理、法律和价值观,其状态空间是不断演变且无法预测的。因此,任何试图将人工智能与一套静态的人类价值观进行「对齐」的尝试,最终都会因为价值观本身的变化而失效。这就像给一个机器人编程让它遵循一本固定的城市地图导航。如果城市道路永远不变,这个任务可以解决。但如果这座城市每天都在重建,那么一本静态的地图就毫无用处了。机器人的导航策略必须是适应性的,而不是一次性的编程。同理,对人工智能的治理也必须是持续适应的动态过程。

研究问题

生成式人工智能的开发,部分依赖于从互联网抓取的大规模文本和图像文件,其中不乏通过「影子图书馆」等盗版网站获取的受版权保护的图书。这引发了关于知识产权、数据集完整性和透明度的严重伦理与法律挑战。以往的应对策略主要分为两大类:一是技术性解决方案,如旨在使人工智能输出符合人类价值观的对齐技术;二是非技术性制度策略,如制定法律框架。然而,纯技术方法难以跟上人类价值观的动态演变,而法律和制度的制定又往往滞后于技术发展,两者都存在局限性。

因此,本研究旨在回答以下核心问题:在处理像图书数据库这类训练数据时,技术性设计方案和作为法律与监管方案的非技术性制度策略,各自如何解决生成式人工智能训练中存在的问题?以及,如何将这两种策略结合起来,形成一个更具社会责任感的混合策略?