非道德智能、历史建构与博物馆展览叙事
智能标准为何被剥离道德维度?
第一篇论文探讨一个根本性问题,我们今天所追求的智能,为何从一开始就呈现出非道德的特质?文章追溯智力测试的起源,揭示智能是如何在历史上被人为建构成一个与伦理相分离的技术对象,这又如何塑造了今日人工智能的宿命?
第二篇论文则聚焦于博物馆,当策展人试图解构关于 AI 的流行神话时,会遇到怎样的现实阻力?研究发现,尽管策展人意图批判,但展览最终仍在不经意间复制了它们试图挑战的刻板印象。这是否意味着对 AI 的公开讨论都难以逃脱主流叙事的引力?
祝今日读写愉悦,洞见深省。
前沿速递
智能的人为建构:从孤立智商到非道德人工智能
核心概念
非道德人工智能(Amoral AI):这个概念指的不是不道德(immoral)的人工智能,而是指那些在设计上就与道德考量无关、对伦理价值无知或不关心的人工智能系统。这种系统的行为逻辑完全基于数据、算法和任务目标,缺乏进行道德判断或自我反思的能力,其伦理上的失败(如偏见和歧视)是这种非道德本质的直接体现,而非简单的程序错误。举例来说,一个先进的自动驾驶系统可以精确计算出在紧急情况下,以何种路径碰撞能将车辆和乘客的物理损伤降至最低,这是它卓越智能的体现。但它无法理解牺牲一人救五人这类电车难题背后复杂的伦理纠结,也无法感知不同选择所带来的道德痛苦和社会影响。对它而言,这只是一个基于物理和概率的优化问题,因为它从被创造之初,其智能就被定义为解决问题的计算能力,而非进行价值判断的能力,这就是一种非道德状态。
智能的人为建构(Artificing Intelligence) 这个概念指的是,智能并非一个永恒不变的、自然的实体,而是一个在特定历史时期,通过各种技术手段(尤其是心理测试)被定义、塑造和固化下来的人造产物。在 20 世纪初,心理学家为了让智能变得可以测量和比较,便设计出智商测试等工具,将智能窄化为一系列可量化的认知技能(如记忆、计算、逻辑推理),并刻意排除了品格、情感、道德等难以量化的维度。这就好比我们想测量健康,但为了方便,我们发明了一个只测量身高、体重和体温的健康仪,并宣称仪器读数就是健康的全部定义。久而久之,人们便接受了这个被简化和工具化的健康概念,而忽略了心理状态、精神面貌等更复杂的维度。同样地,智能也在这个过程中被人为地建构成了一个孤立的、非道德的、可测量的技术对象,为日后机器复制这种智能铺平了道路。
测试与审查的对比(Test vs. Examination) 作者借鉴福柯的理论,对两种评估个体的技术进行了区分。审查(Examination)是 18 至 19 世纪流行的一种技术,它的目标是全面的、规训性的和道德性的,旨在通过持续的观察和记录,将个体塑造成符合规范的、道德完善的主体,它同时关注技能、品行、虔诚等多个方面。而测试(Test)是 20 世纪兴起的新技术,其特点是孤立化和客观化,它旨在精确测量某个单一、孤立的特质(如智力或性格),并刻意排除其它因素(尤其是道德品格)的干扰,以确保结果的科学性和可比性。举个例子,古代的科举或师徒传承就是一种审查,考官或师傅不仅看重你的知识文采,更看重你的人品、德行和忠诚度,这是一个整体性的评估。而现代的 SAT 或公务员考试则是一种典型的测试,它只通过标准化的选择题和量化的分数来评估你的特定能力,你的个人品德、合作精神等则完全不在考察范围之内。这种从审查到测试的转变,标志着对人的评估方式发生了根本变化,即从整体的道德规训转向了非道德的、片段化的量化测量。
研究问题
当前社会围绕人工智能的讨论,往往陷入一个看似矛盾的困境中。一方面,以 ChatGPT 为代表的 AI 系统在通过各种复杂的智能测试、解决特定问题上取得了惊人的成功;另一方面,这些系统又频繁地暴露出严重的伦理问题,如放大社会偏见、产生歧视性结果以及侵犯隐私等。传统的批判视角主要集中于争论机器是否真的能思考或 AI 的智能是否等同于人类智能,但这无法解释为何 AI 的高智商与低情商(或道德缺失)会同时并存。这些研究忽略了我们今天所追求的这种智能概念本身的历史性,即它是在何种条件下、为了何种目的被定义和塑造出来的。
基于以上背景,本文试图探究一个更深层次的历史根源问题:为什么当代人工智能会呈现出智能与非道德性并存的核心特征?换言之,我们今天用来衡量和构建人工智能的智能概念,是如何在历史上被塑造成一个与道德、伦理相分离的独立存在的?这种历史上的分离,又如何决定性地塑造了今日人工智能的非道德本质,使其在技术上越成功,在伦理上就越可能失败?