Robots 协议是一个位于网站根目录下的 robots.txt 文件,用来指示搜索引擎爬虫哪些页面可以访问,哪些页面禁止访问。通过遵守 Robots 协议,可以有效地控制搜索引擎爬虫的抓取行为,维护网站的合法权益。
现在也有一些 AI 模型会抓取你网站的数据进行训练模型,如果不想你的网站被 AI 抓取,那么也可以通过在 robots.txt 文件里面添加屏蔽,下面分享的这个「ai.robots」项目收录了目前主流的 AI 爬虫,有需要的可以添加到自己的网站 robots.txt 文件中。
下载地址
- 项目地址:
https://github.com/ai-robots-txt/ai.robots.txt