模型训练数据成本、内部部署与治理

训练数据的真实价值该如何计算?

模型训练数据成本、内部部署与治理
Photo by Dan Meyers / Unsplash
💡
本期前沿速递分享了两篇论文。

第一篇聚焦于大语言模型训练数据的真实价值,深入探讨了若对数据创作者进行公平补偿,其成本将远超模型训练本身,对现有 LLM 公司的财务可持续性构成严峻挑战,警示我们必须正视 LLM 背后人类劳动的巨大价值与当前补偿机制的缺失。

第二篇则关注先进 AI 系统的内部署问题,细致入微地揭示了 AI 在开发公司内部「闭门」运行所带来的独特风险与治理真空,指出内部署系统可能拥有更强能力和更高权限,却缺乏针对性监管,强调了借鉴其他行业经验,为 AI 内部署建立专门治理框架的紧迫性。

祝今日读写愉悦,洞见深省。

前沿速递

大语言模型最昂贵的部分应该是训练数据

核心概念

数据估值(Data Valuation):数据估值是指在机器学习中,量化单个训练样本或一部分数据对于模型性能或预测结果贡献程度的方法。其目的是理解数据集中哪些数据点更有价值,哪些可能是有害的或冗余的。对于像 LLM 这样的生成模型,一个样本的价值通常被定义为:如果将该特定样本从模型的训练数据集中移除,模型生成结果的质量会降低多少。

研究问题

大语言模型(LLM)性能的提升在很大程度上依赖于「规模效应」,即通过增加模型的参数数量、扩大训练数据集的规模以及投入更多的计算资源,可以持续获得性能上的增益 。这导致了每一代 LLM 的训练成本不断攀升,从数千万美元到预计未来可能出现的数十亿美元级别的训练运行 。

然而,在 LLM 开发成本迅速膨胀的背景下,一个至关重要却常常被忽视的组成部分是其训练数据的来源和价值。目前,绝大多数最先进的 LLM 都依赖于海量的文本数据进行预训练,这些数据通常是通过从公共互联网上抓取获得的,例如利用 Common Crawl 等资源,几乎没有直接的经济成本 。这些网络抓取的文本,涵盖了书籍、学术论文、代码库、社交媒体等多种来源,构成了 LLM 学习通用语言知识和世界知识的基石 。尽管这些文本的创作者在事实上为 LLM 的成功做出了关键贡献,但他们几乎从未因此获得任何形式的补偿 。

基于上述研究背景,本论文旨在探讨并回答以下核心研究问题:在 LLM 的总体开发成本中,其训练数据所蕴含的人类劳动价值究竟占据何种地位?如果对 LLM 训练数据的原始创作者进行公平的劳动补偿,其成本规模将达到何种程度?这与 LLM 的其它开发成本相比如何?当前的 LLM 提供商,特别是那些依赖大规模、从互联网抓取的数据集来训练其模型的机构,是否有足够的经济能力来承担对数据创作者进行合理补偿?