域外观察 | AIGC抓取网络数据进行模型训练是否合法?

发布时间:2024-01-29 17:01:27 · 责任编辑:字母汇 · 浏览量:30 次

原文始发于微信公众号(CAICT互联网法律研究中心):域外观察 | AIGC抓取网络数据进行模型训练是否合法?

域外观察 | AIGC抓取网络数据进行模型训练是否合法?

全文约1600字,预计阅读时间9分钟

文|刘耀华中国信通院互联网法律研究中心高级研究员

网页抓取是使用自动化软件来抓取网页,并从这些页面中收集、复制或提取信息(包括图像、视频、文本、联系方式等),并将该信息存储以供进一步使用。当前,人工智能技术飞速发展,对于数据的需求量大大提升,尤其是生成式人工智能(AIGC)的模型训练过程,更是需要海量的数据进行支撑。实践中,很多AIGC模型的训练是依赖从网络上抓取公开数据来实现的,如加州一家律师事务所表示,OpenAI从互联网上秘密抓取了约3000亿字的内容,其中包括书籍、文章、网站和帖子,甚至还包括未经同意的个人信息。但对于这种数据抓取行为的合法性问题,目前并没有明确和统一的规则,针对OpenAI的情况,加州律所即提出了30亿美元潜在损失的赔偿要求。2024年1月,英国数据保护机构ICO发布了关于AIGC抓取网络数据或处理网络抓取数据以训练AIGC模型的法律依据分析报告。其中,ICO针对AIGC在何种情况下可以抓取网络数据并进行处理的的意见值得关注。

ICO认为收集训练数据的合法性依据主要有两个方面,开发人员在满足以下两个要求时可以处理:一是不违反任何法律,包括知识产权、合同等方面的立法;二是根据英国GDPR第6条第1款,具有有效的法律依据,但这一条规定的六个合法性基础中有五个不能用于在网络上抓取数据训练AIGC,仅有合法利益这一项可以适用于某些情况。为了满足合法利益基础,ICO认为开发人员必须通过三方面的测试,即:目的测试、必要性测试、平衡测试。

首先,目的测试即是否具有有效利益。作为AIGC模型训练的控制者,开发人员首先需要确定处理网络抓取个人数据的合法权益,可能是开发模型并将其部署以获得商业利益,如在他们自己的平台使用,也可以是将其带入市场供第三方采购;也可能为应用程序提供更广泛的社会利益,但如果是用于更广泛的社会利益用途,开发人员需要确保会真正实现这些利益而不只是进行假设。

其次,必要性测试即根据目的,网络抓取是否有必要。必要性测试是一种事实评估,需要确定为了实现目的测试中确定的利益,处理是否是必要的,ICO认为,目前大都数AIGC只能通过使用大规模抓取获得的大量数据来进行训练,当然不能排除未来的技术发展可能会提供新的解决方案和替代方案。

最后,平衡测试即确定个人利益不会凌驾于所追求的利益之上。如果开发人员已经确定使用网络抓取的数据进行AIGC训练是合法的,并且为此目的需要处理网络抓取数据,那么最后一步是要评估数据处理活动对个人的影响,并确定这些个人的利益、权利和自由是否凌驾于开发人员或第三方所追求的利益之上。ICO 认为,通过网络抓取数据是一种“隐形处理”活动,人们不知道他们的个人数据正在以这种方式被处理,人们可能会失去对这种个人数据处理行为的控制,或者无法行使英国数据保护法授予的相关权利,因此,隐形处理和与人工智能相关的处理都被视为高风险活动,需要在ICO指导下进行DPIA评估(即系统分析、识别、最小化数据保护风险的过程)。

需要关注的是,平衡测试是三个测试中最复杂的一种测试,需要基于模型的开发、部署、投放方式等多方面因素进行考虑,更需要从初始开发人员、第三方等多方主体、多场景角度进行考虑。

如果AIGC模型开发人员是在自己的平台上部署模型,需要:证明是否实际用于所述的更广泛的谁利益;评估个人面临的风险;实施技术和组织措施以降低个人风险。

如果由第三方通过API部署AIGC模型,第三方虽然没有自己的底层模型副本,但可以通过API进行查询,因此,AIGC开发人员可以通过对部署实施技术和组织控制确保第三方部署符合AIGC训练阶段确定的合法利益。如,API访问可用于限制查询(防止可能对个人造成风险或伤害的查询)并监视模型的使用。

如果是将AIGC模型的副本或大量信息提供给第三方,那么开发人员对模型在下游的使用方式的控制力将大大降低,午发确定初始训练阶段确定的潜在广泛社会利益是否可以在实践中实现,只能通过合同控制减轻相关风险。