首页 > 快讯 > AI学习新策略！Anthropic 大手笔“解构书籍”以获取数据，引发法律争议讨论

AI学习新策略！Anthropic 大手笔“解构书籍”以获取数据，引发法律争议讨论

发布时间：2025-06-26 09:10:03 | 责任编辑：张毅 | 浏览量：221 次

近日，人工智能公司 Anthropic 以数百万美元的巨额投入，购买并 “拆解” 大量图书，用于训练其 AI 助手 Claude。这一举动引发了公众的广泛关注和法律界的热议。
根据外媒 Ars Technica 报道，Anthropic 为了获取训练数据，采取了一种颇具争议的方法。他们将大量实体书籍拆解、扫描成数字文件，然后直接销毁原件。这一做法在法庭文件中被披露，法官 William Alsup 对此进行了裁定，认为这种扫描方式构成合理使用。法官指出，Anthropic 所购买的书籍经过合法渠道获取，并在扫描后即刻销毁，数字文件仅用于内部使用，并未对外传播。这一判决为其他 AI 公司在获取数据时提供了法律上的参考。
这一策略背后，Anthropic 希望借鉴谷歌书籍项目的成功经验。Anthropic CEO 阿莫代伊曾提到，早期公司曾考虑使用盗版电子书，但出于法律风险的考虑，最终选择了通过购买二手书籍的方式来获取高质量的训练文本。通过 “破坏式扫描”，公司能够快速高效地将书籍转化为可供机器阅读的 PDF 格式，从而为 AI 模型的训练提供充足的数据支持。
然而，非破坏性扫描技术其实已经相当成熟。比如，Internet Archive 就开发出能够保留原书的数字化方式，OpenAI 和微软近期也与哈佛大学图书馆合作，计划数字化近百万本公版书籍，确保这些书籍的原版依然得到妥善保存。与这些同行相比，Anthropic 的做法显得有些激进，但无疑为 AI 训练领域开辟了新的思路。
随着人工智能的发展，如何在尊重知识产权的前提下获取训练数据将成为业界的持续话题。Anthropic 的尝试虽然引起争议，但也为未来的 AI 发展提供了新的可能性。

Anthropic是一家由前OpenAI高管创立的人工智能公司，其开发的大型语言模型“克劳德”（Claude）引发了关于AI训练数据来源的法律争议。该公司在训练模型时，采取了两种主要的数据获取方式：一是从盗版网站下载数百万本受版权保护的书籍；二是斥资数百万美元购买实体书籍，拆解扫描后丢弃原件。

法律争议的焦点

合理使用原则：美国版权法中的“合理使用”条款允许在特定条件下未经许可使用版权作品。法官William Alsup在裁决中指出，Anthropic将合法购买的书籍进行数字化并用于训练AI模型属于“合理使用”，因为这种使用具有“转化性”，即通过算法创造出新的内容，而非直接复制原作。
盗版书籍的使用：尽管Anthropic在训练模型时的部分行为被认定为合理使用，但其从盗版网站下载超过700万本版权书籍并永久存储的行为被判定为侵权。法官强调，即使后续的训练使用具有合理性，初始的盗版行为也无法被豁免。

裁决结果及影响

合法购买书籍的数字化：法院裁定，Anthropic购买实体书籍并进行数字化的行为合法，因为其购书合法、扫描后销毁原件且未传播数字文件。
盗版书籍的侵权责任：Anthropic因盗版行为面临法律责任，可能需支付高额赔偿。美国版权法规定，故意侵犯版权可按每部作品最高15万美元的法定赔偿标准追责。
对AI行业的启示：此次裁决为AI公司使用版权材料训练模型提供了法律参考，但明确指出初始获取材料必须合法。这一判决可能成为未来类似案件的重要参考。

争议的持续性

尽管Anthropic在部分行为上获得了法院的支持，但其早期使用盗版内容的行为削弱了其整体合法性。此外，案件的最终结果尚未完全确定，后续可能还会有进一步的法律程序。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。