验证悖论、冰山指数与自动化意外
除了科技行业,AI 对劳动力市场看不见的冲击究竟有多大?
第一篇论文探讨了 AI 训练数据的经济学。数据为什么不像普通商品那样容易交易?现实中,AI 公司又是通过哪些五花八门的方式购买数据的?在这些交易里,价值最终流向了哪里?我们总听说数据是新石油,但这篇论文系统地告诉我们这个石油市场有多么不规范,以及为什么会这样。
第二篇论文则提出了一个非常有启发性的概念——冰山指数。我们能否在失业潮真正到来前,就提前预警 AI 对各个岗位的冲击?这种风险是只集中在科技行业,还是已经悄悄蔓延到了我们身边的办公室?我们平时关注的 GDP 和失业率,会不会恰好忽略了这种最关键的结构性风险?
祝今日读写愉悦,洞见深省。
前沿速递
人工智能训练数据的经济学:一项研究议程
核心概念
涌现性竞争(emergent rivalry):这个概念指数据虽然在理论上是非竞争性的,即一个人使用不会妨碍另一个人使用,但在实践中,过度或不当的使用会降低其对后续使用者的价值,从而产生一种事实上的竞争关系。例如,一个公开的编程问答数据集,如果被大量用于训练代码生成模型,这些模型给出的答案又被用户发布回这个问答社区,就会造成数据污染。久而久之,这个数据集的质量下降,对于想用它来训练一个全新、高质量模型的后来者来说,其价值就大大降低了。这就好像一个公共的图书馆,书虽然可以被无数人借阅(非竞争),但如果大家都在书上乱涂乱画,这本书对于后来的读者来说就变得难以阅读,其价值受到了损害。
验证悖论(verification paradox):这个概念描述了数据交易中的一个核心困境,即买方在不实际接触和检查数据的情况下无法确认其质量和适用性,但一旦卖方允许买方检查数据,买方就可能轻松地将其复制,从而失去购买的动力。这导致了严重的逆向选择问题。举个例子,一家自动驾驶公司想购买一个包含罕见交通场景的视频数据集。为了确保视频清晰度高、标注准确,公司必须查看样本甚至整个数据集。然而,一旦数据提供方将数据发给他们进行验证,这家公司就可以复制所有文件,然后声称数据不符合要求并拒绝付款。由于存在这种风险,数据卖方很难向市场有效证明其高品质数据的价值,导致买卖双方难以建立信任,阻碍了高效、透明的数据市场形成。
可组合的生产单元(composable unit of production):这个概念将数据视为一个由不同层级的、可独立交换和组合的单元构成的体系,而非一个单一的、同质化的商品。论文提出了一个从微观到宏观的层级:令牌(token)、记录(record)、数据集(dataset)、语料库(corpus)和数据流(stream)。这个框架有助于理解不同形式的数据如何被定价和交易。例如,就像建造一座房子,你可以购买单独的砖块(记录),也可以直接购买一整面预制墙(数据集),或者订阅源源不断输送来的混凝土(数据流)。对于 AI 模型训练来说,API 按令牌收费就像是按使用的最小计算单位付费;数据标注平台按记录付费;而企业间的大宗交易通常是授权整个数据集或语料库。这种分层视角揭示了数据价值的来源不仅在于单个数据点,更在于其如何被有效地组织和组合。
研究问题
数据已成为与算力和算法并列的人工智能生产核心要素,然而相关的经济学研究大多关注其对劳动力、生产率等宏观经济的下游影响,而将人工智能的生产过程本身视为一个黑箱。目前,关于数据经济学的研究分散在计算机科学、经济学、法学等多个学科中,缺乏一个统一的理论框架来衡量、评估和交易数据。特别是数据的非竞争性、价值的情境依赖性、验证困难等独特性质,使得传统的商品市场机制难以适用,导致现有研究存在空白,无法系统性地解释数据市场的运作方式和其在经济增长中的确切贡献。
鉴于数据在人工智能生产中的核心地位及其独特的经济属性所带来的挑战,我们应如何系统地构建一个连贯的数据经济学理论框架?该框架需能解释数据作为一种异质性资产的市场交易现状和定价机制,明确其在经济生产函数中的位置和作用,并为衡量其价值、设计治理机制以及估算其对生产力贡献等关键问题提供一个清晰的研究议程?