带着猫跑的Blog

首页

分类

标签

归档

关于

关于友链

robots文件

概述※

Robots.txt文件是一个在网站根部录下，用于规范搜索引擎爬虫访问哪些文件的一个文件。

基本语法结构※

# 注释：#开头的内容为注释，不生效
User-agent: *  # * 代表所有爬虫（通用规则）
Disallow: /admin/  # 禁止爬虫抓取 /admin/ 目录下的所有内容
Disallow: /test.html  # 禁止爬虫抓取 test.html 单个文件
Allow: /public/  # 允许爬虫抓取 /public/ 目录下的所有内容（优先级高于Disallow）
Sitemap: https://example.com/sitemap.xml  # 告知爬虫站点地图地址

User-agent：指定规则适用的爬虫，*表示所有爬虫，也可写具体爬虫名称（如Baiduspider）。
Disallow：禁止抓取的路径（以/开头，代表网站根目录）。
Allow：允许抓取的路径（用于在 Disallow 的范围内 “例外放行”）。
Sitemap：可选指令，提供站点地图 URL，辅助爬虫遍历。

在CTF中的应用※

在题目中，通常会用于信息泄露的线索，将关键页面设置为禁止爬虫访问，但是robots文件本身是公开可以访问的，因此一般在robots文件中会提供一些文件的线索。给选手使用。

目录

概述
基本语法结构
在CTF中的应用