LLM 能力评估、口音偏见与数字排斥

我们能用人类尺度衡量大模型吗?

LLM 能力评估、口音偏见与数字排斥
Photo by Jamie Street / Unsplash
💡
本期前沿速递分享了两篇论文。

第一篇论文深入探讨了一个根本性问题:大语言模型所展现出的各种能力,是否真的能与人类的认知能力一一对应?那些在人类看来相关的能力,在 LLM 身上是否也存在同样的关联?不同规模的 LLM,其「能力图谱」又会呈现怎样的动态变化?

第二篇论文则将视角投向了日益普及的合成 AI 语音服务,尖锐地指出了其中存在的口音偏见及其可能导致的数字排斥问题。当 AI 生成的语音无法准确再现非主流口音,甚至强化主流口音的中心地位时,这对那些口音「非标准」的用户意味着什么?他们是否会感到自己的语言身份在数字世界中被边缘化?

祝今日读写愉悦,洞见深省。

前沿速递

大语言模型的能力可以用人类能力来描述吗?一项元研究

核心概念

评估基准(Evaluation Benchmarks):在人工智能和机器学习领域,评估基准(或称评测基准、基准测试)是一套标准化的任务、数据集和评估指标,用于衡量和比较不同模型(如大语言模型)在特定能力上的表现。它们就像是为 AI 模型设计的标准化考试,旨在提供一个公平、客观的比较平台。一个评估基准通常会明确定义模型需要完成的任务(例如,回答问题、生成文本、翻译语言),提供用于训练和测试的数据集,以及用于量化模型表现好坏的指标(例如,准确率、召回率等)。

研究问题

大语言模型(LLM)的能力令人印象深刻,但它们内部的工作机制与人类的认知过程存在本质区别。我们对于 LLM 所展现出的「能力」是否能够真正对应人类认知中的能力,以及这种对应关系的程度如何,仍然缺乏清晰的认识。例如,人类的数学能力和物理能力通常被认为是相关的,一个数学好的人往往物理也不会太差。但是,这种相关性是否同样存在于 LLM 中,即一个在数学基准测试中表现优异的 LLM,是否在需要物理知识或逻辑推理的其它基准测试中也一定表现良好,这是一个悬而未决的问题。

为了更好地理解和评估 LLM,学术界开发了大量的评估基准和测试集,涵盖了从基础的语言理解到复杂的推理、知识运用等多个方面。然而,这些评估基准本身是否能够准确、稳定地衡量 LLM 的某项特定「能力」,以及这些基准之间是否存在内在的关联性,却少有研究进行深入探讨。

基于此,本文的研究问题是大语言模型所展现出的各种能力,是否可以像人类能力那样被归类和描述?在人类认知中被认为是相互关联的能力,在大语言模型中是否也表现出类似的相关性?大语言模型的特定能力是否会随着模型参数规模的变化而发生改变?例如,某些能力是否只在模型达到一定规模后才出现或变得稳定,或者随着规模变化,原有能力的稳定性是否会发生变化?