因为技术宅的服务器配置是2核心2G内存,所以对于服务器资源是能省则省,今天收到预警,负载过高,看了下日志,DataForSeoBot的IP疯狂爬我的站点,下面是截图,是不是有点恐怖。
那么dataforseobot是什么蜘蛛?
一、基本属性
- 名称:DataForSeoBot
- 所属公司:DataForSEO
- 功能:作为网络爬虫,用于爬取网站数据,为SEO爱好者和专业人士提供数据支持。
二、行为特征
- 访问速率:DataForSeoBot的访问速率通常较大,这可能会给小型网站带来一定的负担。
- 遵循协议:虽然DataForSeoBot是国外的爬虫,但它通常会遵循robots协议。网站管理员可以通过设置robots.txt文件来限制或禁止其访问网站的某些部分。
- User-Agent标识:DataForSeoBot在访问网站时会携带特定的User-Agent标识,即“Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot)”。
三、应对策略
- 屏蔽措施:对于不希望被DataForSeoBot爬取的网站,可以采取屏蔽措施。例如,在robots.txt文件中添加“User-Agent: DataForSeoBot Disallow: /”来禁止其访问整个网站。
- IP封禁:如果DataForSeoBot的访问给网站带来了过大的负担,且通过robots.txt文件无法有效限制其访问,可以考虑通过封禁其IP地址来进一步限制其访问。但需要注意的是,由于DataForSeoBot可能会更换IP地址进行访问,因此这种方法可能不是长久之计。
- User-Agent封杀:在服务器配置文件中,可以通过匹配User-Agent来封杀DataForSeoBot的访问。例如,在nginx配置文件中添加相应的规则来返回403禁止访问的响应。
综上所述,DataForSeoBot是DataForSEO网站的一个网络爬虫蜘蛛,用于爬取网站数据以支持SEO分析。虽然它通常会遵循robots协议,但对于不希望被其爬取的网站来说,仍然需要采取相应的屏蔽措施来保护自己的网站资源。
技术宅的处理方式三种:
1、robots.txt封禁
User-Agent: DataForSeoBot Disallow: /
2、Nginx封禁
nginx配置文件, Server { …… if ($http_user_agent ~ "DataForSeoBot/1.0" ) { return 403; }
3、直接封禁网站日志里的IP
根据网友反馈,dataforseobot在robots封禁后还会爬,所以就直接封禁IP了,当然可能会更换IP继续爬,那么就继续封禁新IP。