超级数据化、数据节约与超级智能暂停开发
当各国都害怕落后时,暂停超级智能开发真的可能吗?
💡
本期前沿速递分享了两篇论文。
第一篇论文追问当我们说前沿 AI 需要更多数据时,这些数据从哪里来,又由谁承担它们的代价?作者把这个过程称为「超级数据化」,并用 Hugging Face Hub 上超过 55 万个数据集的元数据、肯尼亚 134 名数据工人的问卷,以及全球数据中心投资与分布资料,拼出数据生产的完整链条。数据溯源能否让来源、处理和责任变得可见?数据节约能否让模型开发从「越多越好」转向更克制、更高效的设计?
第二篇论文讨论超级智能暂停开发。很多人会直觉认为,只要超级智能牵涉国家竞争,暂停就只能停留在道德呼吁或理想主义愿望里。因此,这篇的作者想回答在国家以自利为出发点的前提下,暂停开发人工超级智能是否一定是不理性的?在什么条件下,国家会把暂停开发视为符合自身利益的最佳反应?能力差距、赢家优势、技术不确定性和对失控灾难成本的感知,如何共同决定国家是选择竞赛还是暂停?
祝今日读写愉悦,洞见深省。
第一篇论文追问当我们说前沿 AI 需要更多数据时,这些数据从哪里来,又由谁承担它们的代价?作者把这个过程称为「超级数据化」,并用 Hugging Face Hub 上超过 55 万个数据集的元数据、肯尼亚 134 名数据工人的问卷,以及全球数据中心投资与分布资料,拼出数据生产的完整链条。数据溯源能否让来源、处理和责任变得可见?数据节约能否让模型开发从「越多越好」转向更克制、更高效的设计?
第二篇论文讨论超级智能暂停开发。很多人会直觉认为,只要超级智能牵涉国家竞争,暂停就只能停留在道德呼吁或理想主义愿望里。因此,这篇的作者想回答在国家以自利为出发点的前提下,暂停开发人工超级智能是否一定是不理性的?在什么条件下,国家会把暂停开发视为符合自身利益的最佳反应?能力差距、赢家优势、技术不确定性和对失控灾难成本的感知,如何共同决定国家是选择竞赛还是暂停?
祝今日读写愉悦,洞见深省。
前沿速递
超级数据化如何影响前沿人工智能的可持续性成本
核心概念
超级数据化(Hyper-datafication):这指的是为了前沿人工智能模型开发而进行的工业化数据生产与积累过程,包含三个耦合过程:大规模收集和重组现有数据源、利用 AI 系统生成合成数据,以及创建主要用于 AI 训练而非人类直接使用的专用数据。
数据溯源(Data provenance):这指的是在人工智能系统中追踪数据的来源、演变历史、处理过程以及所有权归属的机制,用于监控数据质量并为数据生产者归属应有的信用或补偿。这就像是给超市里的每一瓶果汁贴上一个身世标签,上面详细记录了苹果是在哪个果园摘的、由哪个农民采收、在哪个工厂榨汁以及添加了什么成分。这样一旦果汁出现质量问题,或者消费者想感谢种植苹果的果农,都可以通过这个标签精准地找到源头。
数据节约(Data frugality):这指的是在 AI model 开发中,以数据的高效和精简为导向的设计原则,主张通过代表性子集选择或核心集等技术,用更小但更具信息量的数据集来达到与海量数据相当的模型性能,从而减少计算和存储成本。
研究问题
前沿人工智能的飞速发展高度依赖于海量数据的支撑,科技巨头们为此在全球范围内疯狂聚合和构建互联网规模的数据集。然而,现有的 AI 可持续性讨论大多局限于模型训练和部署阶段的能耗与碳排放,严重忽视了数据本身在收集、清洗、存储、传输及标注等全生命周期中所产生的资源消耗与社会成本。这种研究空白导致人们无法全面评估 AI 技术对生态环境、劳动群体以及全球经济结构的深远影响。
在人工智能开发向工业化生产与积累数据的超级数据化转型背景下,大规模数据集的存储、处理、标注以及相关基础设施的扩张,究竟给全球环境、社会劳工和经济公平带来了哪些具体的可持续性成本与不平等影响?