软硬兼施的大语言模型审查

大语言模型提供商在设计审核策略时,可能会根据具体情况选择不同的侧重点:有的可能倾向于「直接堵嘴」,有的则可能选择「信息过滤」,通常并非两者都做。

软硬兼施的大语言模型审查
Photo by Steve Johnson / Unsplash

大语言模型正以前所未有的速度渗透到我们日常生活的方方面面。它们不再仅仅是新奇的技术玩具,而日益成为人们获取信息、学习知识、进行创作,乃至参与公共讨论的重要「信息门户」。大语言模型的影响力之深远,使其在塑造公众认知和舆论方面扮演着越来越关键的角色。

然而,伴随着大语言模型惊人能力而来的是一系列严峻的挑战。这些模型通常通过学习海量的互联网数据进行训练,但这些数据本身就可能包含有害语言,如偏见、歧视、虚假信息、仇恨言论等。未经充分调整的大语言模型在生成内容时,很可能会复现甚至放大这些有害信息,输出具有潜在危害的内容。这一风险并非危言耸听——实际上,从传播虚假信息误导公众,到煽动针对特定群体的敌意,它们对社会和谐的威胁不可计量。

更进一步,当大语言模型使用多语言、全球化的数据进行训练,它们往往不可避免地反映出广泛多样的文化和意识形态视角。诚然,多样性本身是中性的,但在特定文化或政治语境下,模型的某些输出可能被认为十分冒犯——甚至非法。在某些国家被视为正常讨论的话题,在另一些国家可能触犯法律红线。

为了应对这些风险,大语言模型的输出必须「有用无害」。一些开发者已经开始实施一系列内容审核措施,它们旨在引导大语言模型的行为,阻止其生成被认为是有害的内容。实施这些措施的技术手段多种多样,可能贯穿大语言模型开发的整个流程,例如通过精心筛选训练数据、在模型训练阶段进行特定优化、设计引导性的提示语;也可能在模型输出端部署护栏系统(AI Guardrails)进行实时过滤。

所谓护栏系统,可以理解为一种在模型生成内容之后、输出给用户之前,对其进行实时监控和干预的安全机制。它的作用类似于高速公路两侧的护栏——不会干预车辆的正常行驶方向,但会在偏离安全轨道时及时阻止,防止出轨或翻车。

例如,当用户请求模型提供制造炸药的方法时,护栏系统会识别该请求涉及危险行为,阻止模型回应,并提示用户「出于安全原因无法提供该信息」。又如,当用户输入带有种族歧视倾向的内容时,系统会自动拦截或引导模型以中立方式回应,从而降低潜在的社会风险。

从某种程度上说,上述措施也隶属于审查的范围内,即对模型输出进行有意的限制、修改或压制。审查机制自然引发了激烈的辩论。批评者指出,这种机制引发了重要的伦理、社会和实践相关问题。由谁、如何、以及基于何种合法性或授权,来决定哪些内容是有害的?回答往往是主观且充满争议的。由大语言模型开发者或监管机构做出的选择,可能会过度压制某些虽有争议但合法的观点,进而削弱思想市场的活力。因此,深入理解大语言模型如何、以及在何种程度上,对有争议的政治话题进行内容审查变得至关重要。