AI 婚外情、数据许可与对齐债务

AI 对齐需要多少看不见的劳动?

AI 婚外情、数据许可与对齐债务
Photo by Kelly Sikkema / Unsplash
💡
本期前沿速递分享了两篇论文。

第一篇论文发问当网站和创作者通过各种方式——比如服务条款、元数据、甚至是 robots.txt——明确说「不」的时候,AI 的数据抓取行为真的会停下来吗?为什么这些拒绝信号,常常被轻易绕过?当前的数据集发布方式,又藏着哪些责任转移的巧思?

另一篇论文提出的「对齐债务」这个概念,还蛮有洞见的。全球部署的人工智能系统通常基于高资源环境的假设进行优化,这些假设涉及语言、知识、设备和网络连接。然而,当这些系统被应用于全球南方的多元化环境,特别是像非洲这样的地区时,其设计假设与当地的现实情况之间常出现根本性的错位。以往的公平性研究大多集中在系统层面,通过技术审计来量化模型在不同人群或语言上的性能差异,却很少关注这些差异在现实生活中给用户带来的实际负担。那么使用者为了弥补这种「水土不服」,在背后付出了哪些看不见的劳动?这种被转嫁的成本,在肯尼亚和尼日利亚又有什么不同?

祝今日读写愉悦,洞见深省。

前沿速递

数据所有者如何说不?一项关于网络抓取视觉语言 AI 训练数据集中数据许可机制的案例研究

核心概念

视觉语言数据集(VLDs):是一种大规模的数据集合,其核心特征是包含了成对的数据:一张图像(视觉信息)和一段描述该图像的文本(语言信息)。例如,一个数据点可能是一张「一只猫懒洋洋地躺在阳光下的沙发上」的照片,与之配对的文本就是「一只猫懒洋洋地躺在阳光下的沙发上」。这类数据集是训练现代多模态 AI 模型(如 CLIP、DALL-E、Stable Diffusion)的关键,AI 通过学习数十亿甚至数百亿这样的图文对,来理解视觉概念与人类语言之间的联系。

数据许可(Data Consent):在本文中,数据许可是指数据所有者或托管方就其数据能否被用于 AI 模型训练所授予的许可。这一定义范围很广,不局限于正式的法律文件如版权许可协议,而是涵盖了所有能传达所有者意愿的明确或隐含信号,例如网站的服务条款中禁止抓取的声明、图像本身携带的版权水印或元数据信息,以及 Robots 排除协议中对特定爬虫的访问限制。

URL- 文本对发布实践(url-text pairs release practice):这是指大型网络抓取数据集的一种常见发布方式,即发布者不直接提供图像文件,而是提供一个包含海量 URL 链接和对应描述文本的列表。数据集的用户需要自己根据这个 URL 列表去网络上下载相应的图像。这种做法的直接后果是将数据抓取的行为和潜在的法律责任从数据集的发布者转移到了使用者身上。

数据溯源(Data Provenance):是指追踪和记录一个数据点从起源到当前状态的完整历史和路径。在网络抓取数据集的背景下,这意味着不仅要知道一张图片的内容是什么,还要准确地知道它是从互联网的哪个具体网页上被发现和提取的。

研究问题

视觉语言模型的成功严重依赖于从互联网上抓取的海量图文数据,但这引发了关于版权和数据所有者意愿的激烈争议与法律诉讼。以往的研究虽然关注过文本数据集的版权问题,但在图文并茂的视觉语言数据集领域,数据许可的表达方式更加复杂多样,且数据来源追踪也更困难,导致该领域的许可状况研究尚不充分。特别是,当数据集的发布者仅提供指向网络图片的链接而非图片本身时,数据使用的法律责任归属变得模糊不清,下游使用者可能在不知情的情况下侵犯了数据所有者的权益。

鉴于此,本文的核心研究问题是:在像 DataComp 这样的大规模网络抓取视觉语言数据集中,数据所有者通过哪些渠道表达了他们对数据抓取和 AI 训练的许可或拒绝意愿?当前的数据集构建和使用流程在多大程度上尊重了这些意愿,并存在哪些系统性问题?