robots文件设置

发表时间：2025-12-05

本文提供几个不同用途的robots.txt文件范本，并附上配置说明和注意事项。

robots.txt 内容范本

1. 标准网站范本（允许所有搜索引擎抓取整个网站）

-----------------
User-agent: *
Allow: /
Sitemap: https://www.2ee9.com/sitemap.xml
-----------------

· 适用场景：绝大多数希望被收录的公开网站。

· 说明：* 代表所有爬虫。

Allow: / 表示允许抓取根目录下所有内容。

Sitemap: 告诉爬虫站点地图的位置，有助于全面发现链接。

2. 禁止所有搜索引擎抓取（开发/测试环境常用）

-----------------
User-agent: *
Disallow: /
-----------------

· 适用场景：网站处于开发、测试阶段，或内部使用的后台系统，不希望被任何搜索引擎索引。
· 说明：Disallow: / 禁止抓取所有路径。

3. 仅禁止特定搜索引擎（如仅禁止百度）

-----------------
User-agent: Baiduspider
Disallow: /

User-agent: *
Allow: /
Sitemap: https://www.2ee9.com/sitemap.xml
-----------------

· 适用场景：希望被谷歌等搜索引擎收录，但暂时不希望被百度收录。

· 说明：Baiduspider是百度搜索引擎爬虫。其他爬虫（*）仍可正常抓取。

其他搜索引擎爬虫如下：

‌ Googlebot‌ 是谷歌（Google）搜索引擎的爬虫。‌

‌ 360Spider‌ 是360搜索引擎（360搜索）的爬虫。‌
‌ Sogou Spider‌（或 ‌sogou spider‌）是搜狗搜索引擎的爬虫。‌
‌ Yahoo! Slurp‌ 是雅虎（Yahoo）搜索引擎的爬虫。‌

4. 禁止抓取特定目录和文件

-----------------
User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /logs/
Disallow: /search/
Disallow: *.pdf$
Sitemap: https://www.2ee9.com/sitemap.xml
-----------------

· 适用场景：保护后台、私有数据、日志，并避免无意义的动态页面（如搜索页）或特定文件类型被抓取。
· 说明：
· /admin/ 表示禁止抓取 admin 目录及其子目录。
· *.pdf$ 中的 $ 表示以 .pdf 结尾的URL，禁止抓取所有PDF文件。
· Allow 指令可省略，默认允许未禁止的路径。

5. 复杂指令示例（更精细的控制）

-----------------
User-agent: *
Allow: /public/articles/
Disallow: /public/articles/drafts/
Disallow: /tmp/
Disallow: /*.js$
Disallow: /*.css$
Crawl-delay: 2
Sitemap: https://www.2ee9.com/sitemap.xml
-----------------

· 适用场景：允许抓取公开文章目录，但禁止抓取其中的草稿子目录；同时禁止抓取静态资源（JS/CSS）以节省爬虫配额，并设置抓取延迟。
· 说明：
· Allow 和 Disallow 可以组合使用，更具体的路径优先。
· Crawl-delay: 2 建议爬虫在两次请求之间至少间隔2秒，防止服务器压力过大（注意：此指令并非所有爬虫都支持，百度主要通过搜索资源平台设置抓取频率）。

如何创建与部署

1. 创建文件：使用任何纯文本编辑器（如记事本、VS Code）创建一个新文件。
2. 命名文件：确保文件名为 robots.txt（全部小写）。
3. 编写内容：将上面选定的范本内容复制进去，并将 https://www.2ee9.com 替换为你网站的实际域名。
4. 上传文件：通过FTP或网站后台，将此文件上传到你网站的根目录下（即通过 https://www.2ee9.com/robots.txt 可直接访问的位置）。
5. 测试验证：上传后，立即在浏览器中访问上述完整URL，确认可以打开且内容正确。之后，可以使用 “百度搜索资源平台” -> “网站支持” -> “Robots”工具或 Google Search Console 的 robots.txt 测试工具进行在线测试，检查文件语法和效果。

重要注意事项与常见误区

注意事项说明与建议
robots.txt 无法保证不收录 Disallow 只是不让爬虫抓取页面内容。如果其他网站链接了被禁止的页面，搜索引擎仍可能知道该URL并收录（仅显示网址，无描述）。要真正阻止收录，必须在页面HTML的<head>中添加<meta name="robots" content="noindex">。
并非所有“爬虫”都遵守 robots.txt 是“君子协议”。恶意爬虫、扫描工具可能完全无视它。绝对不要用它来隐藏敏感信息（如用户数据、后台登录页），这些必须通过密码等手段保护。
指令区分大小写指令（如 User-agent, Disallow）通常不区分大小写，但路径和文件名可能区分。建议保持一致，全部使用小写。
“Allow”指令并非必需默认情况下，没有 Disallow 的路径即被视为允许。Allow 通常用于在已禁止的目录中开放某个子目录（如 Disallow: /folder/ 但 Allow: /folder/public/）。
百度爬虫名称百度主流爬虫叫 Baiduspider。网上可能看到其他变体（如 Baiduspider-image），针对特定产品。通常用 Baiduspider 即可。
通配符使用 * 可匹配任何字符序列，$ 表示URL结尾。例如 Disallow: /*.php$ 禁止所有以 .php 结尾的URL。

最佳实践总结

对于大多数希望被收录的网站，建议采用以下步骤：

1. 采用“标准网站范本”作为基础。
2. 根据实际情况，添加需要禁止的目录（如 /admin/， /wp-admin/ (WordPress后台)， /data/ 等）。
3. 务必生成并提交 XML Sitemap，并在 robots.txt 中声明其位置。
4. 部署后，立即在百度搜索资源平台和Google Search Console验证文件是否被正确读取。
5. 定期检查日志，观察百度爬虫的抓取行为是否符合预期。

网站建设

系统开发

微信平台

App开发

虚拟主机

域名注册

企业邮箱

硬件设备

robots文件设置

主营

案例

关于

新闻

联系