锲而不舍的蜘蛛

本来我在 Cloudflare 的 WAF 中拦截了一两天的时间,后面为了日志或者说是“消耗”流量就暂停了 WAF 规则。

WAF 规则:

(http.user_agent contains "amazonbot") or (http.user_agent contains "crawler") or (http.user_agent contains "AhrefsBot")

偷懒干脆全部选择【包含】,即使如此依旧可以命中规则进行拦截。

后来暂停该规则改用.htaccess进行简单处理:

RewriteCond %{REQUEST_URI} ^(/[^/]+/[^/]+/[^/]+/[^/]+/[^/]+/[^/]+/[^/]+/.+)$
RewriteRule ^ %1 [L,R=404]

这个算是专门针对amazonbot的,特意查看了piwigo的url结构发现貌似没有这么层级的所以也算是“通用”,由于写法不太熟悉不过这样也算是返回404错误。

就算是返回404错误目前这amazonbot还在锲而不舍的刷,然后我在刚刚查看日志的时候发现了Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)这蜘蛛……

刚刚才发现6个斜杠会拦截字体文件,遂改成7个斜杠。但是这个还是有可能会出现更多层级或者蜘蛛修改路径,因此在其不更改UA的前提下还是下面那个更保险一些。

附录:拦截某些UA

#Block spider
RewriteCond %{HTTP_USER_AGENT} "MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$" [NC]
RewriteRule ^(.*)$ /robots.txt [F]

返回403状态码。

ChiuYut

2024年12月26日

发布者

ChiuYut

咦?我是谁?这是什么地方? Ya ha!我是ChiuYut!这里是我的小破站!