概述※
Robots.txt文件是一个在网站根部录下,用于规范搜索引擎爬虫访问哪些文件的一个文件。
基本语法结构※
# 注释:#开头的内容为注释,不生效
User-agent: * # * 代表所有爬虫(通用规则)
Disallow: /admin/ # 禁止爬虫抓取 /admin/ 目录下的所有内容
Disallow: /test.html # 禁止爬虫抓取 test.html 单个文件
Allow: /public/ # 允许爬虫抓取 /public/ 目录下的所有内容(优先级高于Disallow)
Sitemap: https://example.com/sitemap.xml # 告知爬虫站点地图地址User-agent:指定规则适用的爬虫,
*表示所有爬虫,也可写具体爬虫名称(如Baiduspider)。Disallow:禁止抓取的路径(以
/开头,代表网站根目录)。Allow:允许抓取的路径(用于在 Disallow 的范围内 “例外放行”)。
Sitemap:可选指令,提供站点地图 URL,辅助爬虫遍历。
在CTF中的应用※
在题目中,通常会用于信息泄露的线索,将关键页面设置为禁止爬虫访问,但是robots文件本身是公开可以访问的,因此一般在robots文件中会提供一些文件的线索。给选手使用。