首页 > 快讯 > 研究称 OpenAI 可能未经授权使用 O’Reilly 付费书籍训练 AI 模型

研究称 OpenAI 可能未经授权使用 O’Reilly 付费书籍训练 AI 模型

发布时间:2025-04-02 10:34:29 | 责任编辑:字母汇 | 浏览量:18 次

近日,一项新研究引发关注,指控 OpenAI 在训练其最新的 AI 模型时,使用了 O'Reilly 媒体的付费书籍,但并未获得许可。这项研究由一家名为 AI Disclosures Project 的非营利组织发布,该组织是由媒体大亨 Tim O'Reilly 和经济学家 Ilan Strauss 于2024年共同创办的。
AI 模型可以被视为复杂的预测引擎,它们通过大量的数据(包括书籍、电影、电视节目等)学习模式,从而对简单的提示进行推测。当模型写作时,例如创作关于希腊悲剧的文章,或者绘制风格化的图像,其实是从庞大的知识库中提取信息,而并非创造出全新的内容。
随着越来越多的 AI 实验室,包括 OpenAI,开始使用 AI 生成的数据来训练模型,以应对现实世界数据(主要是公共网络资源)日益枯竭的挑战,训练模型的方式也在发生变化。尽管如此,完全依赖合成数据的风险使得很多机构仍然选择使用真实数据进行训练。
这项研究的论文指出,OpenAI 的 GPT-4o 模型很可能是基于 O'Reilly 的付费书籍进行训练的,而 O'Reilly 并未与 OpenAI 达成许可协议。研究表明,与早期的 GPT-3.5Turbo 模型相比,GPT-4o 对于 O'Reilly 付费书籍内容的识别能力显著增强。
研究者使用了一种名为 DE-COP 的方法,该方法用于检测语言模型训练数据中的版权内容。研究中,作者对 GPT-4o、GPT-3.5Turbo 及其他 OpenAI 模型的知识进行了分析,使用了来自34本 O'Reilly 书籍的13962个段落摘录,以估计这些摘录在模型训练数据中的概率。
研究结果显示,GPT-4o 对更多的付费 O'Reilly 书籍内容表现出了较高的识别度,这在一定程度上表明该模型可能在训练过程中接触到了这些非公开的书籍内容。
尽管如此,研究者也指出这并不是决定性的证据,OpenAI 或许是通过用户复制粘贴的方式获取了这些内容。此外,研究未对 OpenAI 最新模型进行评估,因此不排除这些模型没有使用 O'Reilly 的付费书籍进行训练的可能性。
尽管 OpenAI 在部分训练数据上是付费获取的,并且与新闻出版商、社交网络等达成了协议,但在当前法律环境下,其使用训练数据的做法仍受到多方质疑。这项研究无疑让 OpenAI 在众多关于训练数据使用的诉讼中,面临更加严峻的挑战。
划重点:
📚 OpenAI 被指控未经授权使用 O'Reilly 的付费书籍进行 AI 模型训练。
🔍 研究显示,GPT-4o 对 O'Reilly 书籍的识别能力显著高于早期模型。
⚖️ OpenAI 在使用训练数据方面正面临多重法律挑战。

研究称 OpenAI 可能未经授权使用 O’Reilly 付费书籍训练 AI 模型

近期有研究指出,OpenAI 可能未经授权使用了 O'Reilly 付费书籍 来训练其 AI 模型(如 ChatGPT),这进一步加剧了 AI 公司与内容创作者之间的版权争议。以下是关键信息分析:

1. 研究指控的核心内容

  • 数据来源争议:研究显示,OpenAI 的训练数据可能包含 O'Reilly 等付费出版平台的书籍内容,而这些数据通常需要授权才能合法使用。
  • 合理使用 vs. 侵权:OpenAI 辩称其训练行为属于“合理使用”(Fair Use),但出版商和作者认为 AI 公司大规模复制受版权保护的作品构成侵权。

2. OpenAI 的应对策略

  • 法律辩护:OpenAI 在类似诉讼中(如印度出版商案)辩称,其 AI 训练符合“合理使用”原则,且模型不会直接复制受保护内容供公众消费。
  • 游说政府放宽限制:OpenAI 近期向美国政府提交建议,呼吁放宽 AI 训练数据的版权限制,以保持美国在 AI 竞赛中的竞争力。

3. 出版行业的强烈反对

  • 诉讼浪潮:O'Reilly、印度出版商联合会及多位作家(如普利策奖得主)已对 OpenAI 提起诉讼,指控其未经许可使用受版权保护的书籍训练 AI。
  • 行业联合抵制:出版商要求 AI 公司删除侵权数据并赔偿,同时推动法律强化版权保护。

4. 未来影响

  • 法律与政策调整:各国可能加强 AI 训练数据的监管,如欧盟要求明确授权,而美国可能倾向于更宽松的“合理使用”政策。
  • AI 行业的数据获取挑战:若法院裁定 OpenAI 侵权,AI 公司可能被迫调整数据采集策略,或与出版商达成授权协议。

OpenAI 被指使用 O'Reilly 付费书籍训练 AI,反映了 AI 发展与版权保护之间的深层矛盾。未来,法律裁决和政策调整将决定 AI 公司能否继续依赖现有数据训练模式,或需探索更合规的数据获取途径。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具