中国 AI 的语言偏科

这不仅是一个技术问题,更是一个关于文化认同和资源分配的社会议题。

中国 AI 的语言偏科
FUCKYOU.DESIGN

在 AI 技术席卷全球的今天,中国已经凭借一系列高性能开源大语言模型(LLMs),如 Qwen2.5、Yi-1.5 和 DeepSeek-R1,成为全球 AI 竞赛中的一支劲旅。这些模型不仅在技术上令人惊叹,更因其多语言能力引发了广泛讨论。然而,这些中国开发的 AI 模型,真的能“说”中国的语言吗?它们是反映了中国丰富的语言多样性,还是仅仅追随了全球化的脚步?最近,康奈尔大学的研究者们发表了一篇题为《Do Chinese models speak Chinese languages?》的论文,深入探讨了这一问题。

研究问题

训练大语言模型需要大量资源,开发者必须决定:哪些语言值得投入?在中国这样一个多语言国家,AI 模型的多语言能力不仅关乎技术,更折射出社会优先级和政策倾向。研究者们好奇,中国开发的 LLMs 会如何选择?是优先支持普通话,还是兼顾少数民族语言?又或者,它们会像西方模型一样,更多关注全球通用语言?这不仅是一个技术问题,更是一个关于文化认同和资源分配的社会议题。

于是,这篇论文提出了四个研究假设来探讨中国开源大语言模型(LLMs)的多语言能力:一是“零假设”,认为中国和西方模型在语言支持上无显著差异;二是“普通话假设”,预测中国模型在普通话上优于西方模型,但在其他语言上表现类似;三是“多元假设”,期待中国模型在普通话及中国境内其他语言(如少数民族语言)上均表现更佳;四是“区域假设”,推测中国模型在普通话和东亚、东南亚区域语言上占优,但在少数民族语言上未必突出。

研究方法

为了回答研究问题,研究者们设计了一系列实验,比较了 6 个中国开源模型(如 Qwen2.5、DeepSeek-R1)和 4 个西方模型(如 Llama3、Mistral)的多语言表现。他们特意选择了参数规模在 7-9 亿之间的模型,确保比较公平。实验分为三个部分:一是用 FLORES+ 基准测试 18 种语言的信息表示效率(Information Parity,简称 IP),简单来说,就是看模型能不能高效地理解和表达不同语言的信息;二是用 Belebele 基准测试 17 种语言的阅读理解能力(Machine Reading Comprehension,简称 MRC),考察模型是否能读懂文本并回答问题;三是用 MC2 数据集测试模型对中国少数民族语言(如藏语、蒙古语)的识别能力。这些实验覆盖了普通话、少数民族语言、亚洲区域语言和欧洲语言,像是给模型们做了一次全面的“语言体检”。

那么,什么是 Information Parity(IP)?用大白话解释,这就像是测试模型在不同语言里“翻译”信息的本事。比如,你用英语说“我爱学习”,模型能不能在中文里同样流畅地表达这个意思?IP 越高,说明模型在这门语言上的信息处理越高效。类似的,MRC 就像是给模型出一道阅读理解题,看它能不能从一段文字里找出正确答案,本质上是在模拟我们日常用语言交流的场景。

研究发现

发现一:普通话遥遥领先

首先,中国模型在普通话(简体中文)上的表现远远超过了西方模型。在信息对等性(IP)和阅读理解(MRC)两项测试中,中国模型的得分都高出一截。比如,在 IP 实验中,所有中国模型在简体中文上的得分都比西方模型更出色;而在 MRC 中,它们的准确率同样领先。

为什么会这样?研究者认为,这可能与中国开发者在普通话数据上的大量投入有关。毕竟,普通话是中国的官方语言,拥有最多的使用者,数据资源也最丰富。开发者自然会优先优化这门语言的表现。这种结果支持了论文提出的“普通话假设”:中国模型在普通话上更强,但在其他语言上和西方模型差不多。

发现二:少数语言的冷落

然而,在粤语、景颇语、拉萨藏语、维吾尔语等语言上,中国模型的表现和西方模型几乎没有差别,甚至有时候还更差。比如,在 IP 和 MRC 测试中,双方在这些语言上的得分都偏低,差距微乎其微。更令人意外的是,在语言识别实验中,一些中国模型甚至无法正确认出维吾尔语和哈萨克语,而西方模型如 Llama3-Instruct 反而表现得更好。换句话说,中国模型虽然“出生”在中国,却对自家少数民族语言有些“陌生”。

这个发现推翻了“多元假设”,即中国模型会在普通话和其他境内语言上都表现出色。相反,它揭示了一个现实:中国模型并未特别关注少数民族语言。研究者推测,这可能与资源分配有关——相比普通话,这些语言的数据稀缺,开发成本高昂。更深一层,这或许也反映了中国近年来的语言政策倾向:普通话优先,少数语言的地位相对边缘化。

发现三:全球视野下的相似性

更令人惊讶的是,中国和西方模型在多语言表现上竟然高度相似。研究用了一个数学指标——Pearson 相关系数,来衡量两者的相关性,结果显示,在指令微调模型中,IP 的相关系数高达 0.925,MRC 更是达到了 0.991。这意味着,无论测试哪种语言,中国和西方模型的表现模式几乎如出一辙。比如,在欧洲语言(如法语、德语)上,两者表现都不错;在亚洲区域语言(如韩语、日语)上,也难分高下。

这支持了“零假设”:中国和西方模型在语言支持上没有太大差异。研究者认为,这可能是因为两者的训练数据来源相似,比如都大量使用了公开的网络数据(如 Common Crawl)。换句话说,中国模型虽然在普通话上占优,但在整体语言分布上,似乎更像是一个“全球玩家”,而非特别聚焦中国或亚洲区域语言。这也否定了“区域假设”,即中国模型会在亚洲语言上更有优势。

研究结论

中国开源大语言模型在普通话上的表现明显优于西方模型,但在其它语言,包括中国少数民族语言和亚洲区域语言上,与西方模型的表现高度相似,几乎没有差别,甚至有时连识别维吾尔语、哈萨克语等少数民族语言的能力都不如西方模型。

这背后是什么原因?研究者认为,这可能反映了中国 AI 开发中的资源分配和社会政治倾向。普通话作为国家语言,拥有最丰富的数据和最迫切的需求,自然成为开发重点。而少数民族语言,尽管在中国文化中举足轻重,却因数据稀缺和政策导向而被边缘化。

同时,中国模型与西方模型的相似性,暗示了它们可能共享了相似的全球数据池,甚至在某种程度上被西方 AI 标准所塑造。比如,DeepSeek-R1 的技术报告显示,它在 10 个英语基准上测试,却只用了 3 个普通话基准。这种“向西看”的趋势,或许是为了在全球 AI 竞赛中占据一席之地?