你的开源 AI 和我的开源 AI 好像不一样?

这一框架不仅揭示了开放性的复杂和多维,同时也给我们一份参考列表,可以去审视许多声称“开源”的大模型是否真的开放。

你的开源 AI 和我的开源 AI 好像不一样?

过去一年,关于“开源”基础模型(Foundation Models, FMs)的讨论从未停歇。一方面,支持者认为开放性是推动创新的基石,能够加速科学进步并增强透明度;另一方面,反对者警告说,开放模型可能被恶意利用,例如生成虚假信息或危害隐私。这种针锋相对的立场,折射出 AI 开放性问题的多面性和复杂性。正是在这样的背景下,今天分享的这篇论文,试图为这场争论提供一个清晰且实用的思考框架。

回顾历史,开源软件在传统软件开发中创造了巨大价值。哈佛商学院的研究显示,开源软件为全球经济贡献了数千亿美元。然而,当我们将目光转向基础模型时,传统的开源定义似乎捉襟见肘。在软件开发中,开源意味着公开源代码,任何人都可以审查、修改和分发。但 AI 模型的开发远不止代码这么简单。数据集可能是模型的“原材料”,但即使公开数据,别人也未必能重现模型,因为训练过程涉及复杂的算法和计算资源。模型权重则是训练后的“成品”,公开它可以让开发者直接复用,却也可能被恶意修改。这种复杂性,让传统的开源逻辑在 AI 面前显得力不从心。同时也使得“开放”在 AI 语境中的含义变得模糊不清。

与此同时,政策层面的变化进一步凸显了这一问题的紧迫性。欧盟《AI 法案》对 AI 模型的监管日益严格,美国也要求开发者提交基础模型的相关报告。在这样的背景下,定义开放性不再是学术界的抽象讨论,而是开发者、政策制定者和公众都需要面对的现实挑战。

此外,现有研究往往忽视了模型与系统的区别。相反,欧盟《AI 法案》则明确区分了“通用 AI 模型”和“通用 AI 系统”,指出模型需要用户界面等额外组件才能成为完整系统。这一洞察启发我们思考,开放模型和开放系统可能是两个不同层面的问题,需要更全面的分析视角。为了弥补这些不足,论文提出了一种全新的描述性框架,希望可以解答:在 AI 的各个技术层面,开放性究竟如何体现?你的开源 AI 和我的开源 AI 好像不一样,不一样在哪里?我们又该如何判断一个开源 AI 系统是否真的开放?有哪些关键的要素?