人口贩卖合成数据集、平台化之树与残障时间

合成数据会掩盖人口贩卖中的不公吗?

人口贩卖合成数据集、平台化之树与残障时间
Photo by Birmingham Museums Trust / Unsplash
💡
本期前沿速递分享了两篇论文。

第一篇论文提出了几个很尖锐的问题:用算法生成的数据来保护敏感人群,这个主意听起来是不是很完美?但我们是否正陷入一种「合成数据洗白」的风险?这会不会导致我们过分相信合成数据在隐私上的技术承诺,而忽视了它在正义层面所延续和重构的那些更深层次的权力、歧视和不平等问题。

第二篇论文讨论为什么残障人士会被看作是「理想」的数据标注员?在一个由政策、资本和公益组织共同搭建的复杂体系里,他们又是如何应对机器的冰冷规则和时间的严苛要求?这篇文章用「平台化之树」这个比喻,把中国数据标注行业里从上到下的关系和纠缠讲得特别清楚,实在佩服。

祝今日读写愉悦,洞见深省。

前沿速递

迈向发展的合成数据正义:一项关于人口贩卖合成数据集的案例研究

核心概念

合成数据(Statistical Individuals):特指基于统计个体的人工生成数据,它不对应任何真实的、可识别的个人,而是通过算法学习原始数据的统计结构和变量关系后生成的全新数据。这种方法旨在保护高度敏感人群(如人口贩卖幸存者)的隐私。举例来说,研究人员获取的全球合成数据集(GSDs)就像是一份模拟的人口普查表,表中的每一行(代表一个统计个体)信息,如年龄、性别、贩卖类型等,看起来都像是真的,但它们是算法捏造出来的,你无法通过这张表找到任何一个真实的幸存者。然而,这份模拟数据在整体统计上(例如,某个年龄段的受害者比例)与真实的幸存者群体数据高度一致,从而允许政策制定者在不侵犯个体隐私的前提下分析宏观趋势。

数据正义(Data Justice):是一个评估数据实践如何影响社会公平的批判性框架。本文采用 Linnet Taylor 的模型,该模型从政治经济、(不)可见性、数字(不)参与和非歧视四个维度出发(political economy, (in)visibility, digital (dis)engagement, and non-discrimination),审视数据项目中的权力关系和对边缘群体的影响。这个框架的核心是关注人们在使用数据技术方面的能动性和自由,而不仅仅是技术效率。例如,使用数据正义框架来分析 GSDs 项目:我们不仅要看这份数据是否有用,还要追问这份数据是谁(微软和联合国机构)主导生产的(政治经济);它让哪些群体被看见了,这种看见是保护还是伤害(可见性);幸存者本人能否控制自己的数据(参与);以及这份合成数据是否可能因为算法的捏造或原始数据的偏见而导致错误的政策,从而歧视某些群体(非歧视)。

合成数据洗白(Synthetic-washing):指一种特定风险,即发展领域的学者和实践者过分相信合成数据所承诺的安全性和隐私保护,从而忽视了这些数据项目背后根深蒂固的权力不对等和政治经济纠葛。这个词借鉴了洗绿(Greenwashing),意思是利用合成数据的隐私安全外衣,来掩盖项目本身可能存在的问题。例如,一个反人口贩卖数据项目被大力宣传,因为它使用了安全的合成数据,这使得公众和资助者都非常放心。但合成数据洗白的风险在于,这种对技术解决方案的信心,可能会让我们不再去追问那些更棘手的问题,比如这个项目是否仍然由强大的科技公司(如微软)主导,以及这种数据驱动的方法是否真的触及了导致人口贩卖的社会结构性不公。

研究问题

合成数据技术正越来越多地被应用于全球发展项目中处理高度敏感的信息,例如联合国移民组织与微软合作发布的关于人口贩卖幸存者的全球合成数据集(GSDs)。支持者声称,合成数据因其与可识别个体脱钩,解决了隐私保护的难题。然而,现有的批判性学术研究已经开始探讨合成数据的政治、伦理和法律问题,指出其隐私承诺并非绝对,且可能掩盖了新的权力集中。但以往研究缺少对合成数据在特定发展情境中如何具体运作的案例分析,特别是它们如何与长期存在的数据促进发展(D4D)领域的权力不平衡问题相互作用。

本文基于 Linnet Taylor 的数据正义框架,通过对 GSDs 的案例研究,旨在回答一个核心问题:在数据驱动的发展项目中,合成数据是如何延续并同时重构数据正义问题?