谷歌确认:尽管网站已选择退出,仍利用其搜索数据来培训AI
发布时间:2025-05-06 10:21:14 | 责任编辑:张毅 | 浏览量:19 次
科技巨头谷歌在近日的一场联邦反垄断审判中承认,即使网站出版商明确选择不让其内容用于人工智能模型训练,谷歌仍会利用其搜索引擎收集的数据进行 AI 训练,包括备受争议的 AI Overviews 功能。
这一承认由谷歌旗下人工智能实验室 DeepMind 的副总裁伊莱·柯林斯在作证时做出。司法部律师戴安娜·阿吉拉尔在质询中指出,即使出版商选择不让 DeepMind 使用其数据进行大型语言模型训练,这些相同的数据仍然会被谷歌搜索部门用于其自身的人工智能项目。
阿吉拉尔援引一份2024年的内部文件显示,谷歌已收集了高达1600亿个文本单元用于人工智能训练。尽管其中一半(800亿个)据称因出版商的选择退出而被删除,但柯林斯的证词表明,这800亿个文本单元仍在谷歌内部用于人工智能训练,只是不再用于 DeepMind。
更令人担忧的是,谷歌为网站提供的唯一阻止其人工智能抓取内容的方法,竟然是彻底从谷歌搜索引擎的索引中移除。对于任何依赖网络流量的网站而言,这几乎等同于“死刑”,根本不构成真正的选择。
谷歌方面暗示,这种做法仅仅是广泛使用的“robots.txt”文件的工作方式所致。该文件用于指示网络爬虫可以访问网站的哪些部分,而这些爬虫既服务于搜索引擎的数据收集,也服务于当前的人工智能训练。谷歌发言人在一份声明中表示,公司通过完善的网络标准 robots.txt,为出版商提供了管理其在搜索中内容的方式。
值得注意的是,去年一名联邦法官已裁定谷歌在搜索引擎市场存在非法垄断,滥用其主导地位排挤竞争对手并抬高广告价格。目前,监管机构正在考虑如何打破这一垄断,可能的措施包括迫使谷歌出售 Chrome 浏览器、禁止其与其他公司签订默认搜索引擎协议,或强制其共享部分数据。
此次审判的新进展进一步凸显了谷歌如何利用其在美国高达90% 的搜索引擎市场份额,通过其人工智能计划实现自身目标。如果网站避免其内容被谷歌人工智能抓取的唯一途径是放弃在谷歌搜索结果中的展示,从而切断与绝大部分网络用户的联系,这无疑为谷歌的垄断行为再添一项证据。教育网站 Chegg 近期也提出了类似的指控,声称谷歌利用其垄断地位迫使其免费提供内容以训练人工智能工具。
谷歌在联邦反垄断审判中承认,即使网站出版商明确选择退出,谷歌仍会利用其搜索引擎收集的数据进行人工智能训练。谷歌旗下人工智能实验室DeepMind副总裁伊莱·柯林斯在法庭上证实,尽管出版商可以选择不让DeepMind使用其数据进行大型语言模型训练,但谷歌搜索部门仍会使用这些数据来改进搜索结果顶部的AI摘要功能。
谷歌声称,网站出版商可以通过robots.txt文件来管理其内容是否被用于AI训练,但这一方法存在争议。如果网站选择从谷歌搜索引擎的索引中完全移除,虽然可以阻止数据被AI抓取,但同时也会失去大量的网络曝光机会。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。