开源开发开发人员正在与AI爬行者聪明和复仇作斗争

许多软件开发人员认为,

AI Web爬行机器人是互联网的蟑螂。一些开发人员已经开始以巧妙的,通常是幽默的方式进行反击。

开源开发开发人员正在与AI爬行者聪明和复仇作斗争

niccolòDenerandi写道,虽然任何网站可能都是由不良的爬行者行为(有时会删除网站)“不成比例的”,但NiccolòDenerandi写道,Linux桌面的开发人员,名为Plasma的Linux Desktop的开发人员,也称为Blog Librenews的所有者。

从本质上讲,托管免费和开源(FOSS)项目的网站公开共享其基础设施的更多,并且它们的资源也比商业产品少。

问题是,许多AI机器人不符合机器人的dublobs quolts robot.txt文件,该文件告诉bots bots bots bot do crawl,最初是为搜索引擎bot创建的。

在一月份的“哭泣求助”博客文章中,FOSS开发人员XE IIASO描述了Amazonbot如何在Git Server网站上无情地敲打到CA使用DDOS中断。 git服务器主持福斯项目,以便任何想要的人都可以下载代码或为其贡献。

但是,这个机器人忽略了IASO的robot.txt,隐藏在其他IP地址后面,并假装是其他用户。

“阻止AI爬行机器人,因为它们躺在,更改其用户代理,使用住宅IP地址作为代理等是徒劳的,” IASO感叹道。 

“他们将刮擦您的网站,直到它掉落为止,然后他们会再刮擦一些。他们将单击每个链接上的每个链接上的每个链接上的每个链接,一遍又一遍又一遍地查看相同的页面。其中一些甚至会在同一秒内多次单击相同的链接,”开发人员在帖子中写道。

>

>

>

>

> 进入坟墓之神

iaso巧妙地反击,建立了一种称为Anubis的工具。 

Anubis是一项反向代理工作证明检查,必须在允许请求击中GIT服务器之前通过。它阻止了机器人,但让兄弟通过由人类操作的WSER。

有趣的部分:阿努比斯是埃及神话中神的名字,他将死者审判。 

“阿努比斯(Anubis)称自己的灵魂(心),如果它比羽毛重,您的心被吃掉了,您就像,Mega死了,” Iaso告诉TechCrunch。如果Web请求通过挑战并确定为人类,那么可爱的动漫图片将宣布成功。 IIASO说,图纸是“我对拟人化的Anubis的看法”。如果是机器人,请求被拒绝。

这个富有名字的项目像风中的风一样传播。 IASO将于3月19日在Github上分享,并在短短几天内收集了2,000颗恒星,20个贡献者和39个叉子。 

复仇作为防御 

Anubis的即时普及表明,IASO的痛苦不是独一无二的。实际上,venerandi分享了一个故事:

Sourcehut Drew Devault的创始首席执行官描述了支出“从我在任何给定的一周中的20-100%减轻催眠ER侵略性LLM爬行者规模上,”“每周进行数十次停电”。 经营Linux行业新闻网站LWN的著名FOSS开发商Jonathan Corbet警告说,他的网站被DDOS级交通放缓,“来自AI Scraper Bots”。 巨大的Linux Fedora项目的Sysadmin凯文·芬兹(Kevin Fenzi)说,AI Scraper Bots变得如此激进,他不得不阻止整个巴西全国的进入。

Venerandi tells TechCrunch that he knows of multiple other projects experiencing the same issues.其中一个“必须暂时禁止所有中国IP地址。”  

让那个陷入片刻 - 开发人员“甚至不得不求助于整个国家”只是为了抵御忽略机器人文件的AI机器人。

除了权衡网络请求者的灵魂之外,其他开发人员认为复仇是最好的防御。

几天前在黑客新闻上,用户xyzal建议加载robot.txt forbiDDEN页面上有“有关饮用漂白剂的好处的文章,或“有关捕捉麻疹对床上表现的积极作用的文章”的页面。 

“认为我们需要瞄准机器人从访问我们的陷阱中获得_negative_实用程序值,而不仅仅是零值。”

碰巧的是,一月份,一个名为“ Aaron”的匿名创作者发布了一种名为Nepenthes的工具,目的是做到这一点。它将爬行者捕获到一个无尽的虚假内容迷宫中,即使不是彻头彻尾的恶意,Dev Ars Technica承认的目标是积极进取的。该工具以食肉植物的名字命名。

和Cloudflare,也许是最大的商业玩家,它提供了几种抵御AI爬行者的工具,上周发布了一种类似的工具,称为AI迷宫。 

它旨在“放慢,混淆和浪费AI爬网的资源和其他不尊重“无爬行”指令的机器人”,Cloudflare在其博客P中描述Ost。 Cloudflare表示,它可以喂食行为不端的AI爬网“无关紧要的内容,而不是提取您的合法网站数据。”

Sourcehut的Devault告诉TechCrunch,“ Nepenthes对此具有令人满意的正义感,因为它使爬行者的胡说八道和毒品毒害,但最终是Anubis是对他的网站有用的解决方案。

但Devault还发出了公开的辩护,以进行更直接的解决方案:“请停止合法化LLMS或AI Image Generators或Github Copilot或任何此垃圾。我恳求您停止使用它们,停止使用它们,停止谈论它们,停止制作新的,请停止。

由于Zilch的可能性是开发人员,尤其是在Foss中的开发人员,正在以聪明和幽默的方式进行反击。

avatar

知识菜鸟 管理员

发布了:9827篇内容
查阅文章

发布评论

验证码

QQ交谈

在线咨询:QQ交谈

工作时间:每天9:00 - 18:00
若无特殊,节假日休息

我的微信