数据集的幽灵:机器学习时代的数据伦理

训练过的模型如同数据的影子,即使源头消失,影子依然存在并影响现实。

数据集的幽灵:机器学习时代的数据伦理

随着机器学习的普及,数据集成为了训练算法和构建人工智能系统的基础。数据集包含了大量的文本、图像、声音等数据,这些数据往往来源于真实世界的人类活动。你是否曾想过,那些支撑智能算法的庞大数据集,那些被我们视为理所当然的数字基石,其实并非中立客观的,而是体现了权力关系和社会不平等?

而当我们数据的收集、组织、解释和使用都受到权力结构的影响,那么就可能会导致对某些群体的不公平对待。怎么办,或许你已经想到解决方法了,我们只需要把那些有偏见、歧视性的数据删除掉,不就好了吗?但真的是这样吗?在今天将为大家导读的这篇论文中,作者 Nanna Bonde Thylstrup 却揭示了一个反常识的结论。