首页 > 快讯 > AI学习新策略!Anthropic 大手笔“解构书籍”以获取数据,引发法律争议讨论

AI学习新策略!Anthropic 大手笔“解构书籍”以获取数据,引发法律争议讨论

发布时间:2025-06-26 09:10:03 | 责任编辑:张毅 | 浏览量:4 次

近日,人工智能公司 Anthropic 以数百万美元的巨额投入,购买并 “拆解” 大量图书,用于训练其 AI 助手 Claude。这一举动引发了公众的广泛关注和法律界的热议。
根据外媒 Ars Technica 报道,Anthropic 为了获取训练数据,采取了一种颇具争议的方法。他们将大量实体书籍拆解、扫描成数字文件,然后直接销毁原件。这一做法在法庭文件中被披露,法官 William Alsup 对此进行了裁定,认为这种扫描方式构成合理使用。法官指出,Anthropic 所购买的书籍经过合法渠道获取,并在扫描后即刻销毁,数字文件仅用于内部使用,并未对外传播。这一判决为其他 AI 公司在获取数据时提供了法律上的参考。
这一策略背后,Anthropic 希望借鉴谷歌书籍项目的成功经验。Anthropic CEO 阿莫代伊曾提到,早期公司曾考虑使用盗版电子书,但出于法律风险的考虑,最终选择了通过购买二手书籍的方式来获取高质量的训练文本。通过 “破坏式扫描”,公司能够快速高效地将书籍转化为可供机器阅读的 PDF 格式,从而为 AI 模型的训练提供充足的数据支持。
然而,非破坏性扫描技术其实已经相当成熟。比如,Internet Archive 就开发出能够保留原书的数字化方式,OpenAI 和微软近期也与哈佛大学图书馆合作,计划数字化近百万本公版书籍,确保这些书籍的原版依然得到妥善保存。与这些同行相比,Anthropic 的做法显得有些激进,但无疑为 AI 训练领域开辟了新的思路。
随着人工智能的发展,如何在尊重知识产权的前提下获取训练数据将成为业界的持续话题。Anthropic 的尝试虽然引起争议,但也为未来的 AI 发展提供了新的可能性。

AI学习新策略!Anthropic 大手笔“解构书籍”以获取数据,引发法律争议讨论

Anthropic是一家由前OpenAI高管创立的人工智能公司,其开发的大型语言模型“克劳德”(Claude)引发了关于AI训练数据来源的法律争议。该公司在训练模型时,采取了两种主要的数据获取方式:一是从盗版网站下载数百万本受版权保护的书籍;二是斥资数百万美元购买实体书籍,拆解扫描后丢弃原件。

法律争议的焦点

  • 合理使用原则:美国版权法中的“合理使用”条款允许在特定条件下未经许可使用版权作品。法官William Alsup在裁决中指出,Anthropic将合法购买的书籍进行数字化并用于训练AI模型属于“合理使用”,因为这种使用具有“转化性”,即通过算法创造出新的内容,而非直接复制原作。

  • 盗版书籍的使用:尽管Anthropic在训练模型时的部分行为被认定为合理使用,但其从盗版网站下载超过700万本版权书籍并永久存储的行为被判定为侵权。法官强调,即使后续的训练使用具有合理性,初始的盗版行为也无法被豁免。

裁决结果及影响

  • 合法购买书籍的数字化:法院裁定,Anthropic购买实体书籍并进行数字化的行为合法,因为其购书合法、扫描后销毁原件且未传播数字文件。

  • 盗版书籍的侵权责任:Anthropic因盗版行为面临法律责任,可能需支付高额赔偿。美国版权法规定,故意侵犯版权可按每部作品最高15万美元的法定赔偿标准追责。

  • 对AI行业的启示:此次裁决为AI公司使用版权材料训练模型提供了法律参考,但明确指出初始获取材料必须合法。这一判决可能成为未来类似案件的重要参考。

争议的持续性

尽管Anthropic在部分行为上获得了法院的支持,但其早期使用盗版内容的行为削弱了其整体合法性。此外,案件的最终结果尚未完全确定,后续可能还会有进一步的法律程序。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复