选择性正规化、行动空间与工具递归

中国数据标注正规化如何发生?

选择性正规化、行动空间与工具递归
Photo by Karwin Luo / Unsplash
💡
本期前沿速递分享了两篇论文。

第一篇论文讨论中国数据标注行业的正规化。数据标注是 AI 产业链中最基础、也最容易被忽视的环节。过去的研究大多把它描绘成一种全球化的隐形劳动——低收入地区的工人通过众包平台为算法喂养数据,分散、低薪、没有保障。这篇民族志研究花了一年半,跑了中国六个城市,深度访谈了 22 位从业者,想弄清楚一个问题:当国家力量介入,职业认证、产业园区、社保合同一一到位,标注员的日子真的好过了吗?答案比想象中复杂,正规化带来了身份认同和社会保障,但也带来了新的棘手问题。我觉得这篇所呈现出来的张力,很值得一读,对理解今天中国 AI 产业的发展很有帮助。

另一篇聚焦 AI 智能体工具生态的大规模实证分析。AI 智能体这一年发展得很快,但它们实际上在做什么?作者从公开代码库里收集了将近 18 万个 MCP 工具进行分析,其中几个数字让我印象很深:短短 16 个月,能直接修改外部环境的行动工具占比从 27% 冲到了 65% ,智能体正在从「帮你查资料」变成「替你做事」。而且到 2026 年初,超过 6 成新工具是 AI 自己帮忙写出来的。AI 给自己造工具,递归循环,加速冲向一个谁也不知道的未来。

祝今日读写愉悦,洞见深省。

前沿速递

从全球堆栈到国家内嵌式人工智能堆栈:中国数据标注行业的正规化

核心概念

行星堆栈秩序(Planetary Stacking Order):这指的是全球人工智能产业中数据标注工作的一种多层次、全球化的分工体系。在这个体系中,高价值的研发、设计环节通常由全球北方的科技公司掌控,而劳动密集型、低附加值的数据标注任务则通过外包和离岸的方式,层层分派给全球南方的低成本劳动力。这些劳动力通过众包平台、专业外包公司或大型科技公司的内部团队等不同形式被组织起来,形成一个像堆栈一样层层叠加的全球生产网络。

再地域化(Re-territorialisation):这指的是将原本跨越国界、无固定工作场所的数字劳动(如在线众包),重新锚定在特定国家领土和制度框架内的过程。在中国数据标注行业的背景下,它表现为国家通过政策引导、建立实体产业园(国家数据标注中心)和实施数据安全法规,将分散的线上标注工作转变为集中在特定地理空间、受国家统一监管的产业。这个过程与全球化趋势下的去地域化(即工作与地点分离)相反。例如,一个标注员以前可以在任何地方通过国际平台接单,工作是无根的。而再地域化后,他/她可能需要进入一个位于中国内陆城市的国家级数据产业园工作,遵守公司的统一管理和国家的数据安全规定,其劳动被重新置于国家主权和地理边界之内。

选择性正规化(Selective Formalisation):这指的是国家或市场在推动行业发展的过程中,并非将所有非正规的经济活动都统一纳入正规体系,而是有选择地将一部分劳动实践和组织形式制度化、合法化,同时允许甚至依赖另一部分非正规实践继续存在。在中国数据标注行业,这意味着虽然许多工人进入了有正式合同和社保的公司或数据中心,成为正规军,但行业内依然并存着大量通过非正式公会组织、短期项目分包或个人接单的非正规用工形式。这种混合状态对资方而言可以保持灵活性和低成本,对国家而言则是一种渐进式的治理策略。就像一个城市在改造小商品市场时,会把一部分摊贩纳入新建的、管理规范的商场内,但同时默许另一些流动摊贩在市场外围继续经营,以满足不同层次的需求并缓冲就业压力,这就是一种选择性的正规化。

研究问题

现有研究已将数据标注描绘成一种不可见的、不稳定的全球性数字劳动,通常通过外包和离岸模式转移到低收入地区,形成了一种行星堆栈秩序的全球分工体系。然而,中国的状况有所不同,数据标注行业正经历一个快速的正规化和本土化过程,这其中不仅有市场力量的驱动,更有国家战略的深度介入,但学术界对于这一特定背景下的正规化动态、机制及其对劳动者的具体影响缺乏深入的民族志考察。

因此,本研究的核心问题是:中国的数据标注行业正规化进程是如何在国家、市场和工人三方逻辑的交织下展开的?这一过程如何重塑了数据标注工作的组织形式、空间布局和劳动体验,并最终促成了一种有别于全球模式的国家内嵌式人工智能堆栈?