robots文件

概述

Robots.txt文件是一个在网站根部录下,用于规范搜索引擎爬虫访问哪些文件的一个文件。

 

基本语法结构

# 注释:#开头的内容为注释,不生效
User-agent: *  # * 代表所有爬虫(通用规则)
Disallow: /admin/  # 禁止爬虫抓取 /admin/ 目录下的所有内容
Disallow: /test.html  # 禁止爬虫抓取 test.html 单个文件
Allow: /public/  # 允许爬虫抓取 /public/ 目录下的所有内容(优先级高于Disallow)
Sitemap: https://example.com/sitemap.xml  # 告知爬虫站点地图地址
  • User-agent:指定规则适用的爬虫,*表示所有爬虫,也可写具体爬虫名称(如Baiduspider)。

  • Disallow:禁止抓取的路径(以/开头,代表网站根目录)。

  • Allow:允许抓取的路径(用于在 Disallow 的范围内 “例外放行”)。

  • Sitemap:可选指令,提供站点地图 URL,辅助爬虫遍历。

在CTF中的应用

在题目中,通常会用于信息泄露的线索,将关键页面设置为禁止爬虫访问,但是robots文件本身是公开可以访问的,因此一般在robots文件中会提供一些文件的线索。给选手使用。


目录