首页 > 快讯 > Perplexity 遭指控暗中收集受禁网站资料

Perplexity 遭指控暗中收集受禁网站资料

发布时间:2025-08-05 09:41:12 | 责任编辑:吴昊 | 浏览量:8 次

根据互联网基础设施提供商 Cloudflare 的最新研究报告,人工智能初创公司 Perplexity 被指控在抓取网站内容时忽视了明确的阻止指令。Cloudflare 表示,他们观察到 Perplexity 在尝试抓取网页时隐藏了自己的身份,以此规避网站的偏好设置。
Perplexity 等人工智能产品通常依赖于从互联网收集大量数据,而这些初创公司长期以来在未获得许可的情况下抓取文本、图像和视频,以便支持其产品的正常运作。近年来,许多网站通过使用标准的 Robots.txt 文件来应对这一问题,该文件指示搜索引擎和 AI 公司哪些页面可以被索引,哪些页面不可以。然而,当前这些努力的成效并不显著。
根据 Cloudflare 的分析,Perplexity 似乎通过更改其机器人的 “用户代理” 来绕过这些限制。“用户代理” 是指用于识别网站访问者的设备和版本类型的信号。Cloudflare 还提到,Perplexity 更改了其自治系统网络(ASN),这是一个识别互联网上大型网络的数字标识。Cloudflare 在数万个域名和数百万个请求中观察到了这一行为,凭借机器学习和网络信号的结合成功识别了这一爬虫。
Perplexity 的发言人 Jesse Dwyer 对 Cloudflare 的指控表示反驳,并称其博客文章为 “推销”。他补充称,文中截图显示并没有访问内容。他进一步声称,Cloudflare 所提到的爬虫并非其所拥有的。Cloudflare 表示,他们最初注意到这些问题是由于客户投诉 Perplexity 仍在抓取其网站内容,尽管这些网站已通过 Robots 文件阻止了该爬虫的访问。
Cloudflare 的分析表明,Perplexity 不仅使用了其声明的用户代理,还在其被阻止时利用一个模拟 Google Chrome 的通用浏览器。最终,Cloudflare 决定将 Perplexity 的爬虫从其验证列表中移除,并采取新的技术来阻止其活动。
值得注意的是,Cloudflare 最近对人工智能爬虫表示反对,并推出了一个市场,允许网站所有者向访问其网站的 AI 爬虫收费。Cloudflare 的首席执行官马修・普林斯曾警告称,人工智能正在破坏互联网的商业模式,尤其是出版商的盈利模式。这并非 Perplexity 第一次面临未经授权抓取的指控,早在去年,《连线》杂志等媒体就曾指控 Perplexity 抄袭其内容。
划重点:
🌐 Cloudflare 指控 Perplexity 在抓取内容时忽视网站的阻止指令。
🤖 Perplexity 通过更改用户代理和网络标识试图绕过网站保护措施。
📉 Cloudflare 推出市场允许网站向 AI 爬虫收费,以保护网站内容。

Perplexity 遭指控暗中收集受禁网站资料

Perplexity 被指控使用隐蔽手段(如“隐形爬虫”)绕过网站设置的爬虫禁令(robots.txt 和 WAF 规则),抓取明确禁止其访问的网站内容。Cloudflare 的研究表明,Perplexity 的爬虫通过更改用户代理(如伪装成 Google Chrome)和轮换 IP 地址、变更自治系统网络(ASN),来规避封锁。Cloudflare 通过实验验证,Perplexity 仍能获取被禁止访问的网站内容,并已将 Perplexity 从其已验证机器人名单中移除。

此前,Perplexity 也因无视 robots.txt 协议和涉嫌绕过付费墙等问题受到批评 ,《纽约时报》《福布斯》等媒体曾指控其未经授权使用其内容。Perplexity 方面否认故意违规,称部分行为可能由第三方爬虫导致,但也承认在数据处理和引用来源方面有改进空间。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐