robots.txt 生成器

可视化构建 robots.txt 文件,包含 User-agent 规则、Allow 与 Disallow 路径、crawl-delay 和 sitemap。一切都在你的浏览器中运行。

你的 robots.txt 规则和 sitemap URL 都在你的浏览器本地组装,绝不会上传。

也需要一份 sitemap?试试 Sitemap 生成器。

关于 robots.txt 生成器

这款 robots.txt 生成器让你以可视化方式构建 robots.txt 文件,无需记住确切语法。添加一个或多个规则分组,每组带有一个 User-agent(默认 *)以及 Allow 和 Disallow 路径行,然后设置可选的 Crawl-delay 并列出你的 Sitemap URL。预设按钮可填入常见配置:允许全部、阻止全部、阻止 /admin 和 /cgi-bin 等常见管理路径,以及一套 WordPress 配置。输出面板会随你输入实时更新,正确格式化每个分组,分组之间留空行,并将 Sitemap 行放在末尾。当某条路径规则不以斜杠开头时,你会收到温和的警告,而不是被直接阻止。复制结果或下载为 robots.txt,放到你站点的根目录。一切都在你的浏览器中生成,因此你输入的任何内容都不会上传。

功能特性

如何使用 robots.txt 生成器

  1. 选择一个像「允许全部」或「阻止全部」这样的预设,或新建一个 User-agent 分组。
  2. 为该分组设置 User-agent,并添加 Allow 或 Disallow 路径行。
  3. 可选地添加 Crawl-delay 和你的 Sitemap URL。
  4. 在右侧输出面板中查看实时生成的 robots.txt。
  5. 点击「复制」或「下载」保存 robots.txt,并上传到你的站点根目录。

示例

输入

User-agent: *  →  Disallow: /admin, /cgi-bin/
Sitemap: https://example.com/sitemap.xml

输出

User-agent: *
Disallow: /admin
Disallow: /cgi-bin/

Sitemap: https://example.com/sitemap.xml

一个阻止管理路径的单一分组,末尾附加了一个 sitemap。

常见错误与故障排除

常见问题

Disallow: / 有什么作用?
Disallow: / 会告诉爬虫不要为该 User-agent 抓取站点上的任何 URL。它是「阻止全部」预设的基础,因此在线上站点上请谨慎使用。
我该把 robots.txt 文件放在哪里?
它必须位于你域名的根目录,通过 https://example.com/robots.txt 提供。爬虫只会查看那里,因此放在子文件夹中的 robots.txt 会被忽略。
Disallow 会把页面从 Google 中移除吗?
不会。Disallow 请求合规爬虫不要抓取该 URL,但被屏蔽的页面仍可能因其他链接出现在结果中。要让页面不进入索引,请使用 noindex meta 标签或响应头。
我能为不同的机器人设置不同规则吗?
可以。为每个机器人添加一个单独的 User-agent 分组,例如一个用于 Googlebot,一个用于 *。每个分组在输出中都有自己的 Allow 和 Disallow 行。
Crawl-delay 是什么,我应该使用它吗?
Crawl-delay 请求爬虫在两次请求之间等待相应的秒数。某些引擎(如 Bing)会遵守它,但 Googlebot 会忽略它,因此它是可选的,默认留空。
我的 robots.txt 会被发送到服务器吗?
不会。robots.txt 生成器会随你输入在你的浏览器中构建文件,因此你输入的规则和 sitemap URL 都留在你的设备上。

相关工具

全部 ArrayKit 工具