首页 > 快讯 > 维基百科推出AI训练数据集，目标是防止爬虫的非法抓取

维基百科推出AI训练数据集，目标是防止爬虫的非法抓取

发布时间：2025-04-18 11:54:00 | 责任编辑：字母汇 | 浏览量：367 次

维基百科近日宣布，将通过与谷歌旗下的数据科学社区平台 Kaggle 的合作，发布一份专门优化用于人工智能模型训练的数据集。这一举措旨在减少 AI 开发者通过爬虫程序抓取维基百科数据的行为，保护平台的带宽和服务器资源。
该数据集的内容包括英语和法语的结构化维基百科信息，具有良好的机器可读性，便于 AI 开发者进行建模、微调和数据分析。维基媒体基金会表示，这份数据集以开放许可的方式发布，内容涵盖了研究摘要、简短描述、图像链接、信息框数据以及文章的各个部分，但不包括参考文献和音频文件等非文本元素。
维基媒体希望，Kaggle 用户能够通过这份数据集，获得更为便利的获取信息的方式，从而避免直接抓取原始文章文本所带来的技术挑战。随着越来越多的自动化 AI 程序对维基百科的访问，爬虫抓取行为正在给维基百科的服务器带来沉重负担。
Kaggle 的合作伙伴关系负责人布伦达・弗林表示，Kaggle 非常高兴能够成为维基媒体基金会数据的承载平台。她指出，Kaggle 致力于保持数据的可访问性、可用性和实用性，以服务更广泛的机器学习社区。
通过此次合作，维基百科不仅保护了自身资源，也为小型企业和独立数据科学家提供了更为便利的访问途径，推动了人工智能的发展和应用。
划重点:
🌐 维基百科与 Kaggle 合作，发布英语和法语的结构化数据集，旨在减少 AI 爬虫抓取行为。
🗂️ 数据集包括研究摘要、简短描述和图像链接等，开放许可，便于 AI 开发者使用。
🔧 Kaggle 承诺维护数据的可访问性，支持小企业和独立数据科学家的研究。

维基百科近期发布了一份专门用于训练人工智能模型的优化数据集，旨在减少AI开发者通过爬虫程序抓取其平台数据的行为。这一举措由维基媒体基金会与谷歌旗下的数据科学社区平台Kaggle合作完成。

合作背景

随着AI技术的发展，越来越多的开发者将维基百科作为训练模型的数据来源。然而，频繁的爬虫抓取行为给维基百科的服务器带来了巨大的带宽压力，影响了普通用户的使用体验。为了应对这一问题，维基百科选择与Kaggle合作，推出结构化的数据集。

数据集特点

内容：该数据集包含英语和法语的结构化维基百科信息，涵盖研究摘要、简短描述、图片链接、信息框数据及文章章节等，但不包括参考文献和音频文件等非文本元素。
格式：数据以JSON格式呈现，便于机器学习工作流程的使用。
许可：数据集采用开放许可，允许开发者在合规框架下使用。

合作意义

减轻服务器压力：通过提供现成的数据集，AI开发者无需直接抓取维基百科主站的内容，从而减少了爬虫带来的流量开支。
推动AI发展：该数据集为AI开发者提供了更便捷的数据获取方式，有助于提升模型训练的效率和质量。
保护平台资源：此举有助于保护维基百科的带宽和服务器资源，确保平台的可持续运营。

未来展望

维基百科的这一举措不仅为AI开发者提供了新的数据资源，也为其他平台在应对爬虫问题上提供了借鉴。随着技术的发展，如何在促进创新与保护知识产权之间找到平衡，仍将是重要的议题。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。