所有分类
  • 所有分类
  • 站长推荐
  • WP主题
  • WP插件
  • WP模板库
  • 前端模板
  • 延伸阅读

常见垃圾爬虫汇总 加入UA黑名单防止被骚扰

常见垃圾爬虫汇总 加入UA黑名单防止被骚扰插图-WordPress资源海

在互联网的世界中,爬虫无处不在。它们可以帮助我们获取信息,但也可能成为骚扰的源头。什么是垃圾爬虫?就是那些会爬取你的网站页面分析你的网站数据,但是除了消耗你的流量影响你的网站性能外,不会给你带来任何用户流量和收益的爬虫。某些垃圾爬虫还会像流氓一样绕过你的robots.txt设置,有的甚至会以极高的频率持续爬取你的网站导致你的网站变卡、服务器CPU和内存爆满,对于这些垃圾爬虫一定要坚决抵制!以下是一些常见的垃圾爬虫,以及如何将它们加入UA黑名单。

常见垃圾爬虫简介

  1. MJ12bot:这是Majestic-12搜索引擎的爬虫。MJ12Bot 是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做SEO的人用,不会给网站带来流量。
  2. AhrefsBot:这是Ahrefs SEO工具的爬虫。AhrefsBot 是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用,不会给网站带来流量。
  3. SEMrushBot:这是SEMrush的网络爬虫,用于收集和提供关于网站的各种数据。同样,SEMrushBot 也是SEO、营销公司的网络爬虫。
  4. DotBot:这是Moz的网络爬虫,用于收集和提供关于网站的链接数据。DotBot 是 Moz.com 的网页爬虫,抓取数据用来支持 Moz tools 等工具。
  5. MegaIndex.ru:这是一个提供反向链接查询的网站的爬虫,因此它爬网站主要是分析链接。MegaIndex Crawler遵循robots.txt中的“User-agent:*”指令的限制。它使用robot.txt中指定的Crawl-delay值,最大允许值不超过5s。
  6. MauiBot:MauiBot 不同于其他爬虫,这个爬虫连网站都没有,UA只显示一个邮箱:”MauiBot (crawler.feedback+wc@gm ail.com)“。神奇的是这个看起来是个人爬虫,竟然遵循robots协议,算得上垃圾爬虫的一股清流。
  7. SEOkicks:SEOkicks 是一个基于 Python 的开源爬虫。它可以爬取网站的 HTML、CSS、JavaScript 和图像。SEOkicks 还可以使用 XPath 和 CSS 选择器来提取特定的数据。同样,SEOkicks 也是SEO、营销公司的网络爬虫。
  8. Barkrowler:Barkrowler 是一个基于 Golang 的开源爬虫。它可以爬取网站的 HTML、CSS、JavaScript 和图像。Barkrowler 还可以使用 XPath 和 CSS 选择器来提取特定的数据。

垃圾爬虫名单汇总

以下是一份垃圾爬虫的名单,你可以复制下面内容后添加到你网站根目录的robots.txt文件中。或者将它们加入到你的UA黑名单中,以防止它们的骚扰:

User-agent: MJ12bot
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: SEMrushBot
Disallow: /

User-agent: DotBot
Disallow: /

User-agent: MegaIndex.ru
Disallow: /

User-agent: MauiBot
Disallow: /

User-agent: SEOkicks
Disallow: /

User-agent: Barkrowler
Disallow: /

但是根据自己的经验来讲,很多垃圾爬虫并不会遵循你在robots.txt文件中设置的爬取频率或禁止爬取的指令。所以最好的方法还是直接加入UA黑名单。下面是我在腾讯云CDN和阿里云全站加速中的UA黑名单设置里的内容,你可以直接复制采用。(^$表示禁止User-agent为空的访问,User-agent为空的 访问基本都是垃圾爬虫或机器人脚本)

*MegaIndex.ru*|*MauiBot*|*DotBot*|*SEMrushBot*|*AhrefsBot*|*SEOkicks*|*MJ12bot*|*Barkrowler*|^$

以上就是关于常见垃圾爬虫的汇总以及如何防止它们的骚扰的介绍。希望对你有所帮助!

声明:1、本站大部分资源均为网络采集所得,仅供用来学习研究,请于下载后的24h内自行删除,正式商用请购买正版。2、所有汉化类文件和个别标注了“原创”的产品均为本站原创发布,任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。3、如若本站内容侵犯了原著者的合法权益,请携带相关版权文件联系我们进行下架或删除。4、虚拟下载类资源具有可复制性,一经下载后本站有权拒绝退款或更换其他商品!
分享海报

评论0

请先
显示验证码
没有账号?注册  忘记密码?

社交账号快速登录