AI爬行者会导致Wikimedia Commons带宽要求增加50％

知识菜鸟

2025年04月03日 09:54发布

3723阅读

Wikimedia基金会是维基百科的伞组织，还有十几个众包知识项目，他周三表示，自2024年1月以来，来自Wikimedia Commons的多媒体下载的带宽消费量已飙升了50％。

。

这套服装在周二的博客文章中写道的原因并不是由于知识题外人的需求不断增长，而是由于想培训AI模型的自动化，渴望数据的刮刀。

“我们的基础设施是为了在高利益事件中维持人类的突然交通峰值而建立的，但是scraper机器人产生的交通量是前所未有的，并带来了增加的风险和成本，”帖子写道。

Wikimedia Commons是一个可自由访问的图像，视频和音频文件的存储库，可在公开许可下或在公共领域中获得。

挖掘，维基梅迪亚说，最昂贵的traf的近三分之二（65％）FIC（即，就消耗的内容而言，最有资源的密集型 - 来自机器人。但是，总体浏览量中只有35％来自这些机器人。 Wikimedia认为，这种差异的原因是，经常访问的内容与用户的缓存更近，而其他频繁访问的内容则在“核心数据中心”中存储更远，而从“核心数据中心”中，从中提供内容更昂贵。这是机器人通常要寻找的内容。

“尽管人类读者倾向于专注于特定的（通常相似的）主题，但爬网机器人倾向于“批量阅读”大量的页面，也访问较不受欢迎的页面，” Wikimedia写道。 “这意味着这些类型的请求更有可能被转发到核心数据中心，这使其在消费我们的资源方面变得更加昂贵。”

所有这一切都是Wikimedia FoundatION的网站可靠性团队必须花费大量时间和资源来阻止爬行者，以避免对常规用户造成破坏。在我们考虑基金会面临的云成本之前，所有这些。

实际上，这代表了一种快速增长的趋势的一部分，它威胁到开放式互联网的存在。上个月，软件工程师和开源倡导者Drew Devault哀叹AI爬网忽略旨在阻止自动流量的“ Robots.txt”文件的事实。 “务实的工程师” Gergely Orosz上周还抱怨说，来自Meta等公司的AI刮刀驱动了对自己项目的带宽需求。

尤其是开源基础架构正在射击线中，但正如TechCrunch上周写道的那样，开发人员正在以“聪明和复仇”的方式进行反击。一些科技公司也正在努力解决这个问题 - 例如，Cloudflare最近推出了AI迷宫，它使用AI生成的含量来减慢爬网的速度。

但是，这是一款猫和鼠标的游戏，最终可能会迫使许多出版商躲在登录和付费墙后面的封面 - 损害了今天使用网络的每个人。