什么是爬行预算?
抓取预算是搜索引擎为抓取特定网站而分配的时间和资源。换句话说,它是搜索引擎在特定时间内可以抓取的网站页面的最大数量。不同搜索引擎(或爬虫)的抓取预算会有所不同。
谷歌指出,除非有以下情况,否则您不必担心抓取预算:
- 您的网站有 100 多万个独特页面,内容每周更换一次。
- 您有一个中等规模的网站(约 1 万页),经常(每天)更换内容。
- 你经营着一家新闻网站。
- Search Console 会将您网站的大部分 URL 归类为 "已发现 - 当前未编入索引"。
每个网站都会根据两个主要因素获得不同的抓取预算:
- 抓取需求:由页面数量、发布/更新频率和页面受欢迎程度定义。
- 抓取率限制:受服务器能力、网站所有者在 Search Console 中设置的抓取限制、搜索引擎的抓取限制以及 Google 根据服务器响应时间自动调整的影响。
为什么爬行预算很重要?
抓取预算非常重要, 因为它影响到 Googlelebot 可以抓取网站上的多少页面,以及 Googlelebot 重新抓取网页更新索引的频率。谷歌拥有巨大的资源,但它无法抓取(并定期重新抓取)互联网上的所有网页。因此,谷歌为网站分配了抓取预算。
为确保您的抓取预算不会浪费在不重要的页面上,请专注于优化网站的抓取效率。
如何增加爬行预算?
1.加快服务器速度,缩短页面加载时间
服务器响应时间和页面加载速度直接影响抓取。当 Googlebot 抓取您的网站时,它会先下载资源,然后进行处理。如果服务器响应速度快,Googlebot 就能抓取网站上更多的页面。
- 使用快速可靠的虚拟主机服务和内容分发网络 (CDN),以改善服务器的初始响应时间。
- 通过使用 robots.txt,防止抓取大型但非关键的资源,避免冗长的重定向链,删除繁重和编码不良的主题和插件,从而缩短页面加载时间。
2.添加更多链接
一个页面的链接数量表明其对 Google 的重要性。Googlelebot 会优先抓取有更多反向链接和内部链接的页面。通过为页面添加更多外部和内部链接来增加抓取预算。
- 有关内部链接的建议,请使用Ranktracker 网站审计等工具对网站进行审计。
3.修复断链,减少重定向
太多断开的内部链接(404 或 410 响应代码)和重定向 URL(3xx)会浪费网站的抓取预算。修复断开的链接和不必要的重定向,优化抓取预算。
- 使用Ranktracker's Site Audit等工具查找网站上被破坏和重定向的 URL。
4.尽可能使用索引 API
索引 API 可让您在添加、删除或更新网站页面时直接通知 Google。这有助于加快页面的抓取速度。
- 注:索引 API 目前只适用于特定的使用案例,如实时视频和职位发布。
常见问题
Googlebot 是否尊重 Robots.txt 中的爬行延迟?
不,Googlebot 不会尊重 robots.txt 文件中的抓取延迟设置。
何时需要关注爬行预算?
如果您运营的是超大型网站(超过 100 万页)或内容变化非常频繁(每天)的中型网站,则应关注抓取预算。大多数网站无需担心抓取预算。
如何检查网站的抓取预算?
您无法在任何地方找到抓取预算的准确数字。不过,您可以在 Google Search Console 的 Crawl Stats 报告中查看 Google 抓取活动的概况。
有关提高网站搜索引擎优化和抓取效率的更多见解,请访问Ranktracker 博客并浏览我们全面的搜索引擎优化指南。此外,您还可以在我们的搜索引擎优化词汇表中熟悉关键的搜索引擎优化术语和概念。