开放合作、爬虫限制与政治偏见
开源大模型开发者为何投入其中?
第一篇论文探讨了开源 AI 的协作生态。开源大模型项目究竟是如何运作的?开发者们是出于什么原因,才愿意贡献自己的时间和精力?这些跨越国界的合作,又是如何被组织和管理的呢?
另一篇论文揭示了一个数据源头的偏见问题,是我自己一直很关注的方向。以往的研究多关注训练数据中已有的社会偏见,或数据清洗规则带来的偏见,很少有研究关注这种由网站主动限制爬虫所导致的数据采集源头上的偏见。这篇论文回答了现在有多少网站正在阻止 AI 爬虫抓取资料?这种现象是普遍的,还是只发生在特定类型的网站上?更重要的是,这种不均衡的屏蔽,会怎样从源头上就污染了 AI 的训练数据,悄悄植入偏见?还是蛮值得阅读的。
祝今日读写愉悦,洞见深省。
前沿速递
开源人工智能中开放合作的图景:14 个开源大语言模型项目的实践、动机与治理模式探究
核心概念
开放合作(Open Collaboration):论文将开放合作定义为一个协作和协调的生产过程,在此过程中,许多个体使用一个公开可用的公共物品作为输入,并且该过程的产出(例如新模型、数据集或工具)会被释放回这个公共物品中,供社区共同使用。这种合作既包括多方直接携手共同开发(直接合作),也包括通过开放共享实现的间接开发,例如一方发布成果,另一方在此基础上进行复用或改进(间接合作)。
开源 LLM 生命周期(Open LLM Lifecycle):这指的是一个开源 LLM 从最初的构想到最终被社区广泛复用和分发的整个过程。论文作者扩展了传统的机器学习模型管线,使其不仅包括模型发布前的开发活动(如数据收集、模型预训练),还涵盖了模型公开发布到平台(如 Hugging Face Hub)后的所有下游活动(如模型微调、社区反馈收集和衍生开发)。
研究问题
开源人工智能生态系统,尤其是在 Hugging Face Hub 这样的平台上,正经历着模型和数据集数量的爆炸性增长。以往的研究已经揭示了一些现象,比如模型的复用率高度集中在极少数头部模型上,开发者的参与模式呈现游牧式(即短暂高强度参与后迅速转移到新模型),并且模型维护活动(侧重性能提升)也不同于传统的开源软件(侧重 bug 修复)。
尽管已有如 BigScience 这样的大型社区主导项目在探索新的合作方式,但学术界对于开源 LLM 在其完整生命周期中所采用的开放合作方法,仍然缺乏一个全面且系统的理解 。这种知识上的空白,导致我们难以有效地去培育这个生态系统,例如不知道如何更好地促进参与、连接相关项目或为资源不足的领域提供支持 。
为了填补这一空白,本研究通过一项探索性分析,旨在回答以下三个核心研究问题:在开源 LLM 的整个生命周期中,开放合作在何时、何地以及如何发生?是什么因素激励开发者参与开源 LLM 的协作开发?开源 LLM 上的合作是如何被协调和治理的?