Disallow: / 有什么作用？

Disallow: / 会告诉爬虫不要为该 User-agent 抓取站点上的任何 URL。它是「阻止全部」预设的基础，因此在线上站点上请谨慎使用。

我该把 robots.txt 文件放在哪里？

它必须位于你域名的根目录，通过 https://example.com/robots.txt 提供。爬虫只会查看那里，因此放在子文件夹中的 robots.txt 会被忽略。

Disallow 会把页面从 Google 中移除吗？

不会。Disallow 请求合规爬虫不要抓取该 URL，但被屏蔽的页面仍可能因其他链接出现在结果中。要让页面不进入索引，请使用 noindex meta 标签或响应头。

我能为不同的机器人设置不同规则吗？

可以。为每个机器人添加一个单独的 User-agent 分组，例如一个用于 Googlebot，一个用于 *。每个分组在输出中都有自己的 Allow 和 Disallow 行。

Crawl-delay 是什么，我应该使用它吗？

Crawl-delay 请求爬虫在两次请求之间等待相应的秒数。某些引擎（如 Bing）会遵守它，但 Googlebot 会忽略它，因此它是可选的，默认留空。

我的 robots.txt 会被发送到服务器吗？

不会。robots.txt 生成器会随你输入在你的浏览器中构建文件，因此你输入的规则和 sitemap URL 都留在你的设备上。

robots.txt 生成器

可视化构建 robots.txt 文件，包含 User-agent 规则、Allow 与 Disallow 路径、crawl-delay 和 sitemap。一切都在你的浏览器中运行。

你的 robots.txt 规则和 sitemap URL 都在你的浏览器本地组装，绝不会上传。

也需要一份 sitemap？试试 Sitemap 生成器。

关于 robots.txt 生成器

这款 robots.txt 生成器让你以可视化方式构建 robots.txt 文件，无需记住确切语法。添加一个或多个规则分组，每组带有一个 User-agent（默认 *）以及 Allow 和 Disallow 路径行，然后设置可选的 Crawl-delay 并列出你的 Sitemap URL。预设按钮可填入常见配置：允许全部、阻止全部、阻止 /admin 和 /cgi-bin 等常见管理路径，以及一套 WordPress 配置。输出面板会随你输入实时更新，正确格式化每个分组，分组之间留空行，并将 Sitemap 行放在末尾。当某条路径规则不以斜杠开头时，你会收到温和的警告，而不是被直接阻止。复制结果或下载为 robots.txt，放到你站点的根目录。一切都在你的浏览器中生成，因此你输入的任何内容都不会上传。

功能特性

构建多个 User-agent 分组，每组拥有自己的 Allow 和 Disallow 路径
添加或移除单独的路径行，让你精细控制爬虫可访问的内容
一键预设：允许全部、阻止全部、阻止常见管理路径，以及 WordPress
可选的 Crawl-delay 以及一个或多个绝对 Sitemap URL
实时输出会格式化分组，分组之间留空行，sitemap 放在末尾
当路径规则不以斜杠开头时发出警告，而不是阻止你
复制生成的 robots.txt 或将其下载为 robots.txt 文件
完全在你的浏览器中运行，不会上传你的规则

如何使用 robots.txt 生成器

选择一个像「允许全部」或「阻止全部」这样的预设，或新建一个 User-agent 分组。
为该分组设置 User-agent，并添加 Allow 或 Disallow 路径行。
可选地添加 Crawl-delay 和你的 Sitemap URL。
在右侧输出面板中查看实时生成的 robots.txt。
点击「复制」或「下载」保存 robots.txt，并上传到你的站点根目录。

示例

输入

User-agent: *  →  Disallow: /admin, /cgi-bin/
Sitemap: https://example.com/sitemap.xml

输出

User-agent: *
Disallow: /admin
Disallow: /cgi-bin/

Sitemap: https://example.com/sitemap.xml

一个阻止管理路径的单一分组，末尾附加了一个 sitemap。

常见错误与故障排除

某条路径规则因为不以斜杠开头而没有生效。 — 每个 Allow 和 Disallow 的值都要以 / 开头，例如 /admin 或 /private/。生成器会标记不符合的规则。
Disallow: / 意外地把整个站点对搜索引擎屏蔽了。 — Disallow: / 会告诉爬虫跳过每个 URL。请使用「允许全部」预设或一个空的 Disallow 值来重新允许抓取。
Sitemap 行被爬虫忽略。 — Sitemap 的值必须是像 https://example.com/sitemap.xml 这样的绝对 URL，而不是 /sitemap.xml 这样的相对路径。
爬虫仍然索引了你已 Disallow 的页面。 — robots.txt 只是请求合规爬虫不要抓取某个 URL；它并不会把页面从索引中移除。要做到这一点，请使用 noindex meta 标签或响应头。

常见问题

Disallow: / 有什么作用？: Disallow: / 会告诉爬虫不要为该 User-agent 抓取站点上的任何 URL。它是「阻止全部」预设的基础，因此在线上站点上请谨慎使用。
我该把 robots.txt 文件放在哪里？: 它必须位于你域名的根目录，通过 https://example.com/robots.txt 提供。爬虫只会查看那里，因此放在子文件夹中的 robots.txt 会被忽略。
Disallow 会把页面从 Google 中移除吗？: 不会。Disallow 请求合规爬虫不要抓取该 URL，但被屏蔽的页面仍可能因其他链接出现在结果中。要让页面不进入索引，请使用 noindex meta 标签或响应头。
我能为不同的机器人设置不同规则吗？: 可以。为每个机器人添加一个单独的 User-agent 分组，例如一个用于 Googlebot，一个用于 *。每个分组在输出中都有自己的 Allow 和 Disallow 行。
Crawl-delay 是什么，我应该使用它吗？: Crawl-delay 请求爬虫在两次请求之间等待相应的秒数。某些引擎（如 Bing）会遵守它，但 Googlebot 会忽略它，因此它是可选的，默认留空。
我的 robots.txt 会被发送到服务器吗？: 不会。robots.txt 生成器会随你输入在你的浏览器中构建文件，因此你输入的规则和 sitemap URL 都留在你的设备上。