回归社区、文化敏感性与社会科学中的智能体
人工智能在社会科学中的应用历史究竟是怎样的?
第一篇论文探讨了文生图模型的文化敏感性问题。这篇论文提出了几个关键问题:文化到底该如何定义和评估?怎样才算是有文化敏感性的 AI 图像?我们又该如何建立一套真正植根于社群的评估方法,而不是简单地打分?
第二篇论文则回顾了人工智能体在社会科学中的历史。人工智能在社会科学中的应用历史究竟是怎样的?它仅仅是计算机科学家递过来的一个工具,还是说两者从一开始就在相互影响、共同演化?为什么当前大量研究热衷于用 AI 做实验,却很少真正用来加深我们对人类本身的理解?
祝今日读写愉悦,洞见深省。
前沿速递
回归社区:一种混合方法与社区驱动的文生图模型文化敏感性评估
核心概念
文化代理项(Cultural Proxies):在人工智能研究中,由于文化本身是一个极其复杂、抽象且多维度的概念,难以直接衡量,因此研究者通常使用文化代理项来将其操作化。这些代理项是一些更具体、可观察、可测量的元素,被用作代表更广泛文化概念的替身。论文将它们分为三类:人口统计学代理项(如国籍、性别、族裔)、物质语义代理项(如食物、服饰、建筑)和非物质语义代理项(如节日、传统、价值观)。举例来说,就像我们无法直接测量一辆车的好坏,但可以通过检查它的百公里加速时间、刹车距离、油耗和内饰材质等具体指标(代理项)来综合判断其性能。同样,AI 研究者通过测试模型能否准确生成特定国家的传统服饰或节日场景,来间接评估其对该文化的理解程度。
厚重评估(Thick Evaluation):这是一种强调深度定性理解而非浅层量化分数的评估方法。它旨在通过捕捉参与者在评估过程中的详细反思、深入讨论和情境化解读,来获得对现象(如此处的 AI 生成图像)丰富而细致的理解。它反对将复杂的文化表征简化为是/否或 1 到 5 分的评级,而是关注为什么和怎么样的问题,重视评估过程中参与者之间通过协商和对话所产生的意义。这就像是评价一部电影,薄的评估只看烂番茄上的分数,而厚重评估则像是参加一场映后谈,听导演、演员和观众从各自的角度分享他们的感受、解读和幕后故事。通过这种方式,我们能获得比一个冰冷数字更全面、更有深度的认知。
研究问题
文生图模型在全球范围内普及,但其生成内容常常不成比例地反映西方文化规范,可能加剧对少数群体的刻板印象、文化挪用乃至抹杀,造成代表性伤害。以往的研究多采用量化基准来评估偏见,但这些方法常被批评为过于简化,将文化视为静态、可量化的指标,忽视了其流动性、多面性和情境性,并且缺乏与文化社群的直接协商。这种自上而下的技术评估方法,难以捕捉到文化表征的微妙之处以及其对社群成员的主观感受和潜在伤害。
因此,本研究试图回答以下核心问题:在生成式人工智能的研究中,文化应如何被定义和评估?怎样的人工智能生成图像才能算作具备文化敏感性?以及,我们应如何将这些细致入微的文化考量,系统地整合到文生图模型的评估方法中,从而超越简单的技术指标,真正实现负责任的人工智能创新?