AI训练数据的“原罪”问题迎来最强法律挑战。由两届普利策奖得主约翰·卡雷鲁(John Carreyrou)领衔,数十位知名作家近日向美国加州北区地方法院提起集体诉讼,将OpenAI、谷歌、Meta、Anthropic、xAI与Perplexity AI六大AI公司列为共同被告,指控其系统性地使用盗版书籍训练大模型,构成“故意版权侵权”。若罪名成立,每部作品最高可索赔15万美元,总赔偿或达数十亿乃至上百亿美元。
“双重盗版链条”浮出水面
诉状揭露,被告公司形成了一条清晰的侵权闭环:
1. 盗版获取:从LibGen、Z-Library等“影子图书馆”批量下载数百万册受版权保护的书籍(包括小说、非虚构作品、学术著作);
2. 模型训练:将这些非法数据用于训练ChatGPT、Gemini、Claude等大模型;
3. 商业变现:通过API订阅、企业服务、广告等模式获利,却未向原作者支付任何报酬。
原告方强调:“作家的文字是AI智慧的基石,却成了免费燃料。”这些作品不仅赋予模型语言能力,更塑造其“知识深度”与“叙事风格”,是数十亿美元AI生态的隐形支柱。
OpenAI成“被诉大户”,旧金山法院成AI版权案风暴眼
这并非AI公司首次陷入文字版权纠纷,但本案因原告权威性高、被告覆盖全、侵权链条清晰而备受瞩目。据南都数字经济治理研究中心统计,OpenAI已面临至少14起版权诉讼,是行业“被诉大户”。而本案审理地——加州北区法院(旧金山)——目前已受理25起AI相关版权案,占全美同类案件超50%,其判决结果或将确立AI训练数据合法性的全国性先例。
故意侵权 vs. 合理使用:法律边界待裁决
被告公司此前多以“合理使用”(Fair Use)抗辩,主张AI训练属“转化性使用”,不损害原作市场。但此次原告聚焦“盗版本质”——若训练数据本身即非法获取,则“合理使用”抗辩难以成立。法院若认定“故意侵权”,不仅赔偿金额飙升,还可能强制AI公司清洗模型、删除侵权数据,甚至暂停相关服务。
行业地震:AI训练数据供应链或将重构
无论结果如何,此案已敲响警钟:
- 头部AI公司正加速与出版社、作者协会谈判授权(如OpenAI与美联社、Shutterstock合作);
- 开源模型社区面临合规压力,需验证训练数据合法性;
- “影子图书馆”或成执法重点,数据采集工具链将受审查。
AIbase认为,这场由作家发起的“版权保卫战”,不仅是对个体权益的捍卫,更是对AI发展伦理的终极拷问:技术创新,是否必须以牺牲创作者为代价? 当法律开始为“数据血汗”定价,AI的黄金时代,或将迎来一场深刻的合规革命。