robots.txt 生成器
可视化构建 robots.txt 文件,包含 User-agent 规则、Allow 与 Disallow 路径、crawl-delay 和 sitemap。一切都在你的浏览器中运行。
你的 robots.txt 规则和 sitemap URL 都在你的浏览器本地组装,绝不会上传。
也需要一份 sitemap?试试 Sitemap 生成器。
关于 robots.txt 生成器
这款 robots.txt 生成器让你以可视化方式构建 robots.txt 文件,无需记住确切语法。添加一个或多个规则分组,每组带有一个 User-agent(默认 *)以及 Allow 和 Disallow 路径行,然后设置可选的 Crawl-delay 并列出你的 Sitemap URL。预设按钮可填入常见配置:允许全部、阻止全部、阻止 /admin 和 /cgi-bin 等常见管理路径,以及一套 WordPress 配置。输出面板会随你输入实时更新,正确格式化每个分组,分组之间留空行,并将 Sitemap 行放在末尾。当某条路径规则不以斜杠开头时,你会收到温和的警告,而不是被直接阻止。复制结果或下载为 robots.txt,放到你站点的根目录。一切都在你的浏览器中生成,因此你输入的任何内容都不会上传。
功能特性
- 构建多个 User-agent 分组,每组拥有自己的 Allow 和 Disallow 路径
- 添加或移除单独的路径行,让你精细控制爬虫可访问的内容
- 一键预设:允许全部、阻止全部、阻止常见管理路径,以及 WordPress
- 可选的 Crawl-delay 以及一个或多个绝对 Sitemap URL
- 实时输出会格式化分组,分组之间留空行,sitemap 放在末尾
- 当路径规则不以斜杠开头时发出警告,而不是阻止你
- 复制生成的 robots.txt 或将其下载为 robots.txt 文件
- 完全在你的浏览器中运行,不会上传你的规则
如何使用 robots.txt 生成器
- 选择一个像「允许全部」或「阻止全部」这样的预设,或新建一个 User-agent 分组。
- 为该分组设置 User-agent,并添加 Allow 或 Disallow 路径行。
- 可选地添加 Crawl-delay 和你的 Sitemap URL。
- 在右侧输出面板中查看实时生成的 robots.txt。
- 点击「复制」或「下载」保存 robots.txt,并上传到你的站点根目录。
示例
输入
User-agent: * → Disallow: /admin, /cgi-bin/
Sitemap: https://example.com/sitemap.xml
输出
User-agent: *
Disallow: /admin
Disallow: /cgi-bin/
Sitemap: https://example.com/sitemap.xml
一个阻止管理路径的单一分组,末尾附加了一个 sitemap。
常见错误与故障排除
- 某条路径规则因为不以斜杠开头而没有生效。 — 每个 Allow 和 Disallow 的值都要以 / 开头,例如 /admin 或 /private/。生成器会标记不符合的规则。
- Disallow: / 意外地把整个站点对搜索引擎屏蔽了。 — Disallow: / 会告诉爬虫跳过每个 URL。请使用「允许全部」预设或一个空的 Disallow 值来重新允许抓取。
- Sitemap 行被爬虫忽略。 — Sitemap 的值必须是像 https://example.com/sitemap.xml 这样的绝对 URL,而不是 /sitemap.xml 这样的相对路径。
- 爬虫仍然索引了你已 Disallow 的页面。 — robots.txt 只是请求合规爬虫不要抓取某个 URL;它并不会把页面从索引中移除。要做到这一点,请使用 noindex meta 标签或响应头。
常见问题
- Disallow: / 有什么作用?
- Disallow: / 会告诉爬虫不要为该 User-agent 抓取站点上的任何 URL。它是「阻止全部」预设的基础,因此在线上站点上请谨慎使用。
- 我该把 robots.txt 文件放在哪里?
- 它必须位于你域名的根目录,通过 https://example.com/robots.txt 提供。爬虫只会查看那里,因此放在子文件夹中的 robots.txt 会被忽略。
- Disallow 会把页面从 Google 中移除吗?
- 不会。Disallow 请求合规爬虫不要抓取该 URL,但被屏蔽的页面仍可能因其他链接出现在结果中。要让页面不进入索引,请使用 noindex meta 标签或响应头。
- 我能为不同的机器人设置不同规则吗?
- 可以。为每个机器人添加一个单独的 User-agent 分组,例如一个用于 Googlebot,一个用于 *。每个分组在输出中都有自己的 Allow 和 Disallow 行。
- Crawl-delay 是什么,我应该使用它吗?
- Crawl-delay 请求爬虫在两次请求之间等待相应的秒数。某些引擎(如 Bing)会遵守它,但 Googlebot 会忽略它,因此它是可选的,默认留空。
- 我的 robots.txt 会被发送到服务器吗?
- 不会。robots.txt 生成器会随你输入在你的浏览器中构建文件,因此你输入的规则和 sitemap URL 都留在你的设备上。
相关工具
全部 ArrayKit 工具