robots文件设置

发表时间:2025-12-05

本文提供几个不同用途的robots.txt文件范本,并附上配置说明和注意事项。


robots.txt 内容范本


1. 标准网站范本(允许所有搜索引擎抓取整个网站)


-----------------
User-agent: *
Allow: /
Sitemap: https://www.2ee9.com/sitemap.xml
-----------------

· 适用场景:绝大多数希望被收录的公开网站。

· 说明:*          代表所有爬虫。

            Allow: / 表示允许抓取根目录下所有内容。

            Sitemap告诉爬虫站点地图的位置,有助于全面发现链接。


2. 禁止所有搜索引擎抓取(开发/测试环境常用)

-----------------
User-agent: *
Disallow: /
-----------------

· 适用场景:网站处于开发、测试阶段,或内部使用的后台系统,不希望被任何搜索引擎索引。
· 说明:Disallow: / 禁止抓取所有路径。

3. 仅禁止特定搜索引擎(如仅禁止百度)

-----------------
User-agent: Baiduspider
Disallow: /

User-agent: *
Allow: /
Sitemap: https://www.2ee9.com/sitemap.xml
-----------------

· 适用场景:希望被谷歌等搜索引擎收录,但暂时不希望被百度收录。

· 说明:Baiduspider是百度搜索引擎爬虫。其他爬虫(*)仍可正常抓取。

            其他搜索引擎爬虫如下:

 ‌             Googlebot‌ 是谷歌(Google)搜索引擎的爬虫。‌

 ‌             360Spider‌ 是360搜索引擎(360搜索)的爬虫。‌
‌              Sogou Spider‌(或 ‌sogou spider‌)是搜狗搜索引擎的爬虫。‌
‌              Yahoo! Slurp‌ 是雅虎(Yahoo)搜索引擎的爬虫。‌


4. 禁止抓取特定目录和文件

-----------------
User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /logs/
Disallow: /search/
Disallow: *.pdf$
Sitemap: https://www.2ee9.com/sitemap.xml
-----------------

· 适用场景:保护后台、私有数据、日志,并避免无意义的动态页面(如搜索页)或特定文件类型被抓取。
· 说明:
  · /admin/ 表示禁止抓取 admin 目录及其子目录。
  · *.pdf$ 中的 $ 表示以 .pdf 结尾的URL,禁止抓取所有PDF文件。
  · Allow 指令可省略,默认允许未禁止的路径。

5. 复杂指令示例(更精细的控制)

-----------------
User-agent: *
Allow: /public/articles/
Disallow: /public/articles/drafts/
Disallow: /tmp/
Disallow: /*.js$
Disallow: /*.css$
Crawl-delay: 2
Sitemap: https://www.2ee9.com/sitemap.xml
-----------------

· 适用场景:允许抓取公开文章目录,但禁止抓取其中的草稿子目录;同时禁止抓取静态资源(JS/CSS)以节省爬虫配额,并设置抓取延迟。
· 说明:
  · Allow 和 Disallow 可以组合使用,更具体的路径优先。
  · Crawl-delay: 2 建议爬虫在两次请求之间至少间隔2秒,防止服务器压力过大(注意:此指令并非所有爬虫都支持,百度主要通过搜索资源平台设置抓取频率)。


如何创建与部署

1. 创建文件:使用任何纯文本编辑器(如记事本、VS Code)创建一个新文件。
2. 命名文件:确保文件名为 robots.txt(全部小写)。
3. 编写内容:将上面选定的范本内容复制进去,并将 https://www.2ee9.com 替换为你网站的实际域名。
4. 上传文件:通过FTP或网站后台,将此文件上传到你网站的根目录下(即通过 https://www.2ee9.com/robots.txt 可直接访问的位置)。
5. 测试验证:上传后,立即在浏览器中访问上述完整URL,确认可以打开且内容正确。之后,可以使用 “百度搜索资源平台” -> “网站支持” -> “Robots”工具 或 Google Search Console 的 robots.txt 测试工具 进行在线测试,检查文件语法和效果。

重要注意事项与常见误区

注意事项 说明与建议
robots.txt 无法保证不收录 Disallow 只是不让爬虫抓取页面内容。如果其他网站链接了被禁止的页面,搜索引擎仍可能知道该URL并收录(仅显示网址,无描述)。要真正阻止收录,必须在页面HTML的<head>中添加<meta name="robots" content="noindex">。
并非所有“爬虫”都遵守 robots.txt 是“君子协议”。恶意爬虫、扫描工具可能完全无视它。绝对不要用它来隐藏敏感信息(如用户数据、后台登录页),这些必须通过密码等手段保护。
指令区分大小写 指令(如 User-agent, Disallow)通常不区分大小写,但路径和文件名可能区分。建议保持一致,全部使用小写。
“Allow”指令并非必需 默认情况下,没有 Disallow 的路径即被视为允许。Allow 通常用于在已禁止的目录中开放某个子目录(如 Disallow: /folder/ 但 Allow: /folder/public/)。
百度爬虫名称 百度主流爬虫叫 Baiduspider。网上可能看到其他变体(如 Baiduspider-image),针对特定产品。通常用 Baiduspider 即可。
通配符使用 * 可匹配任何字符序列,$ 表示URL结尾。例如 Disallow: /*.php$ 禁止所有以 .php 结尾的URL。

最佳实践总结

对于大多数希望被收录的网站,建议采用以下步骤:

1. 采用“标准网站范本”作为基础。
2. 根据实际情况,添加需要禁止的目录(如 /admin/, /wp-admin/ (WordPress后台), /data/ 等)。
3. 务必生成并提交 XML Sitemap,并在 robots.txt 中声明其位置。
4. 部署后,立即在百度搜索资源平台和Google Search Console验证文件是否被正确读取。
5. 定期检查日志,观察百度爬虫的抓取行为是否符合预期。

CopyRight © 2015 深圳市千度网络有限公司
粤ICP备09169184号-1