近400家报纸起诉OpenAI与微软，指控其未经授权使用AI训练数据

由近400家地方及地区性报纸组成的一个联盟于周三对OpenAI和微软提起诉讼，指控这两家公司系统性抓取受版权保护的文章以训练ChatGPT和Copilot，且未经许可也未支付任何费用。

一个由近400家报纸组成的联盟起诉OpenAI和微软，指控其系统性抓取受版权保护的文章以训练ChatGPT和微软Copilot，并称这种做法威胁到地方新闻业的存续。

"出版商们的新闻作品对被告的爆炸性增长至关重要，除非被告为其窃取、剥离和滥用出版商内容的行为承担责任，否则AI热潮将成为地方新闻业的丧钟，"出版商们在美国纽约南区联邦地区法院提交的诉状中表示。

该诉讼由总部位于长岛的Richner Communications牵头，并由前新泽西州总检察长马修·普拉特金（Matthew Platkin）代理。诉状指控OpenAI和微软将数十万篇文章（包括付费墙后的内容）复制到自有服务器上，剥离了作者署名和出版物名称等版权管理信息，并将这些材料用于训练大语言模型，而这些模型会在响应用户提示时重现这些作品。

此案为针对AI开发商的日益增长的版权诉讼浪潮再添新例。此前，《纽约时报》、CNN、Reddit、Merriam-Webster已对Perplexity AI提起诉讼，大英百科全书（Encyclopedia Britannica）和Merriam-Webster也对OpenAI提起了另一起诉讼。OpenAI在三月份完成1220亿美元融资后估值达8520亿美元，该公司表示其模型"基于合理使用原则"。

指控的规模

出版商称，被告"系统性地、秘密地爬取"其网站，将原创作品复制到自有服务器上，同时剥离了版权管理信息。诉状要求就版权侵权和违反《数字千年版权法》（DMCA）的行为寻求法定赔偿和禁令救济。

微软于2019年首次向OpenAI投资10亿美元，在诉状中被描述为"在OpenAI商业企业的几乎每一个方面都是不可或缺的合作伙伴"。出版商认为，利用其内容构建的生成式AI产品已为被告创造了数十亿美元的市场价值，而内容创作者却"一分钱"也没有得到。

AI行业面临的风险

这起诉讼是地方及地区性报纸在AI训练数据之争中发起的最大的法律行动。此前包括《纽约时报》起诉OpenAI在内的诉讼主要集中在全国性媒体，地方新闻业基本未参与讨论。

"地方新闻是绝大多数美国人信任的新闻来源，"普拉特金在接受采访时说。"它是我们民主制度的命脉，而这种商业模式确实将地方新闻置于灭绝的危险之中。"

此案的结果可能重塑AI公司获取训练数据的方式。如果法院驳回OpenAI的合理使用抗辩，AI行业可能面临数十亿美元的追溯性许可成本，并被迫与数千家出版商谈判内容协议。OpenAI已与美联社（Associated Press）和Axel Springer等部分媒体达成了许可协议，但地方出版商联盟认为，这些协议并未覆盖绝大多数新闻机构。

OpenAI发言人德鲁·普萨泰里（Drew Pusateri）在一份声明中表示，该公司的"模型赋能创新，基于公开可用数据进行训练，并以合理使用为依据"。微软未立即回应置评请求。

本案为 Richner Commc'ns, Inc. v. Microsoft Corp., 案号 No. 1:26-cv-05320，由纽约南区联邦地区法院审理。

本文仅供参考，不构成投资建议。