介绍
在最近的一篇 LinkedIn 帖子中,谷歌分析师加里-伊利耶斯(Gary Illyes)对 将 robots.txt 文件放置在根域上的传统方法提出了质疑。他介绍了一种替代方法,即把这些文件集中到内容分发网络(CDN)上,从而提供灵活性并改进管理。
主要见解:
-Robots.txt 灵活性:
-
robots.txt 文件不必位于根域上(例如,example.com/robots.txt)。
-
网站可以在主网站和 CDN 上同时托管 robots.txt 文件。
- 集中式 Robots.txt 管理:
-
通过在 CDN 上托管 robots.txt,网站可以集中并简化抓取指令。
-
例如,网站可将 robots.txt 寄存在 https://cdn.example.com/robots.txt,并将来自 https://www.example.com/robots.txt 的请求重定向到该集中文件。
- 符合最新标准:
- 遵从 RFC9309 的爬虫会跟踪重定向,并使用原始域的集中 robots.txt 文件。
实用优势:
1.集中管理:
- 将 robots.txt 规则整合到一个位置可简化整个网站的维护和更新。
2.提高一致性:
- robots.txt 规则的单一来源降低了主网站和 CDN 之间指令冲突的风险。
3.增强灵活性:
- 这种方法尤其适用于具有复杂架构、多个子域或广泛使用 CDN 的网站。
反思Robots.txt诞生30年
在《机器人排除协议》(Robots Exclusion Protocol,REP)诞生 30 周年之际,Illyes 的见解凸显了网络标准的不断发展。他甚至暗示,未来抓取指令的管理方式可能会发生变化,传统的 "robots.txt "文件名可能并不总是必要的。
如何实施这种方法:
1.创建中央 robots.txt 文件:
- 将全面的 robots.txt 文件托管在 CDN 上(如 https://cdn.example.com/robots.txt)。
2.设置重定向:
- 配置主域,将 robots.txt 请求重定向到 CDN 托管的文件。
3.确保合规:
- 确保您的设置符合 RFC9309,以便符合要求的爬虫能正确跟踪重定向。
结论
Gary Illyes 关于在 CDN 上集中管理 robots.txt 文件的指导提供了一种管理抓取指令的现代方法。这种方法提高了灵活性、一致性和管理的简便性,尤其适用于基础设施复杂的网站。采用这种策略可以简化网站管理,并有可能改善搜索引擎优化工作。