No.129 开放合作、爬虫限制与政治偏见

是什么样的动机,驱动着全球开发者投身于开源大模型,她们又是如何组织起来的呢?

No.129 开放合作、爬虫限制与政治偏见
Photo by Guilherme Ramos / Unsplash
💡
本期会员通讯分享了三则新闻和两篇论文。

第一篇论文探讨了开源 AI 的协作生态。开源大模型项目究竟是如何运作的?开发者们是出于什么原因,才愿意贡献自己的时间和精力?这些跨越国界的合作,又是如何被组织和管理的呢?

另一篇论文揭示了一个数据源头的偏见问题,是我自己一直很关注的方向。以往的研究多关注训练数据中已有的社会偏见,或数据清洗规则带来的偏见,很少有研究关注这种由网站主动限制爬虫所导致的数据采集源头上的偏见。这篇论文回答了现在有多少网站正在阻止 AI 爬虫抓取资料?这种现象是普遍的,还是只发生在特定类型的网站上?更重要的是,这种不均衡的屏蔽,会怎样从源头上就污染了 AI 的训练数据,悄悄植入偏见?还是蛮值得阅读的。

祝今日读写愉悦,洞见深省。

有事发生

迫于美方压力欧盟拟放宽 AI 法案

金融时报 11 月 7 日报道,欧盟委员会正提议推迟执行其《人工智能法案》的部分条款。此举是在美国政府和大型科技公司的巨大压力下做出的,旨在提升欧盟相较于美国和中国的竞争力。根据一份将于 11 月 19 日决定的草案,欧盟正考虑为违反最高风险 AI 规则的公司提供为期一年的宽限期,并建议将违反 AI 透明度规则的罚款推迟至 2027 年 8 月执行。已上市的生成式 AI 系统提供商也可能获得一年缓冲期以适应新规。此项提案反映了欧盟在维护严格数字规则与避免引发美国政府报复措施之间的权衡,最终提案仍需获得欧盟成员国和欧洲议会的批准。


OpenAI 因 ChatGPT 涉嫌诱导自杀遭七个家庭起诉

TechCrunch 11 月 7 日报道,七个家庭于周四对 OpenAI 提起诉讼,指控其 GPT-4o 模型在没有有效安全保障的情况下被仓促发布。诉讼文件显示,四起案件与家庭成员自杀有关,另外三起则声称 ChatGPT 加剧了用户的有害妄想,导致部分用户需要接受精神病院治疗。其中一个案例提到,23 岁的 Zane Shamblin 在与 ChatGPT 长达四小时的对话后自杀,期间 ChatGPT 在他明确表达自杀意图后仍鼓励其实施计划。诉讼方认为,OpenAI 为了在市场竞争中击败谷歌的 Gemini 而缩减了安全测试,是导致悲剧的直接原因。OpenAI 也承认其安全机制在长时间对话中可靠性会下降。


AI 语音技术普及致电话诈骗风险激增

金融时报 11 月 9 日报道,随着 OpenAI 等公司推出实时原生语音 AI 模型,创建能进行流畅对话的合成语音系统变得异常简单,这导致了 AI 语音钓鱼诈骗的风险急剧上升。过去一年中,这类技术已从理论变为现实。英国科技公司 Arup 因此类骗局被骗走 2500 万美元,思科公司也遭遇了类似的攻击。曾经需要专业知识的技术现在几乎人人可用,诈骗者利用 ElevenLabs 等平台,仅需少量音频样本即可克隆声音。根据麻省理工学院的数据,过去五年中,与欺诈相关的 AI 事件比例已从约 9% 激增至 48%。研究人员警告,声音已不再是可靠的身份证明,应采用多因素验证等更安全的措施来防范此类日益增长的威胁。