会员通讯

LLM 能力评估、口音偏见与数字排斥

我们能用人类尺度衡量大模型吗？

💡

本期前沿速递分享了两篇论文。

第一篇论文深入探讨了一个根本性问题：大语言模型所展现出的各种能力，是否真的能与人类的认知能力一一对应？那些在人类看来相关的能力，在 LLM 身上是否也存在同样的关联？不同规模的 LLM，其「能力图谱」又会呈现怎样的动态变化？

第二篇论文则将视角投向了日益普及的合成 AI 语音服务，尖锐地指出了其中存在的口音偏见及其可能导致的数字排斥问题。当 AI 生成的语音无法准确再现非主流口音，甚至强化主流口音的中心地位时，这对那些口音「非标准」的用户意味着什么？他们是否会感到自己的语言身份在数字世界中被边缘化？

祝今日读写愉悦，洞见深省。

前沿速递

大语言模型的能力可以用人类能力来描述吗？一项元研究

核心概念

评估基准（Evaluation Benchmarks）：在人工智能和机器学习领域，评估基准（或称评测基准、基准测试）是一套标准化的任务、数据集和评估指标，用于衡量和比较不同模型（如大语言模型）在特定能力上的表现。它们就像是为 AI 模型设计的标准化考试，旨在提供一个公平、客观的比较平台。一个评估基准通常会明确定义模型需要完成的任务（例如，回答问题、生成文本、翻译语言），提供用于训练和测试的数据集，以及用于量化模型表现好坏的指标（例如，准确率、召回率等）。

研究问题

大语言模型（LLM）的能力令人印象深刻，但它们内部的工作机制与人类的认知过程存在本质区别。我们对于 LLM 所展现出的「能力」是否能够真正对应人类认知中的能力，以及这种对应关系的程度如何，仍然缺乏清晰的认识。例如，人类的数学能力和物理能力通常被认为是相关的，一个数学好的人往往物理也不会太差。但是，这种相关性是否同样存在于 LLM 中，即一个在数学基准测试中表现优异的 LLM，是否在需要物理知识或逻辑推理的其它基准测试中也一定表现良好，这是一个悬而未决的问题。

为了更好地理解和评估 LLM，学术界开发了大量的评估基准和测试集，涵盖了从基础的语言理解到复杂的推理、知识运用等多个方面。然而，这些评估基准本身是否能够准确、稳定地衡量 LLM 的某项特定「能力」，以及这些基准之间是否存在内在的关联性，却少有研究进行深入探讨。

基于此，本文的研究问题是大语言模型所展现出的各种能力，是否可以像人类能力那样被归类和描述？在人类认知中被认为是相互关联的能力，在大语言模型中是否也表现出类似的相关性？大语言模型的特定能力是否会随着模型参数规模的变化而发生改变？例如，某些能力是否只在模型达到一定规模后才出现或变得稳定，或者随着规模变化，原有能力的稳定性是否会发生变化？

监管透明度陷阱、审计文化与后殖民语境中的 AI 伦理

新闻话语、平台治理第四权力与 AI 对话式访谈

可及性偏见、重思平台化与点赞按钮的终结

前沿速递

大语言模型的能力可以用人类能力来描述吗？一项元研究

核心概念

研究问题

Read next