什么是可抓取性?
可抓取性是指搜索引擎爬虫(如 Googlebot)访问网站页面和资源的能力。可抓取性问题会对网站的有机搜索排名产生负面影响。必须区分可抓取性和可索引性。后者是指搜索引擎分析网页并将其添加到索引中的能力。只有可抓取和可索引的页面才能被谷歌发现和索引,这意味着它们可以出现在搜索引擎结果中。
可抓取性为何重要?
可抓取性对于任何希望获得有机搜索流量的网站来说都至关重要。可抓取性允许搜索引擎抓取页面以阅读和分析其内容,从而将其添加到搜索索引中。如果不进行抓取,页面就无法被正确索引。虽然 Google 有时可以根据 URL 文本和反向链接的锚文本,在不抓取 URL 的情况下将其编入索引,但页面标题和描述不会显示在 SERP 上。
可抓取性不仅对 Google 重要。出于各种原因,其他特定的爬虫也必须抓取网站页面。例如,Ranktracker 的网站审计机器人会抓取网站页面,以检查搜索引擎优化的健康状况并报告任何搜索引擎优化问题。
是什么影响了网站的可抓取性?
1.页面可发现性
在抓取网页之前,爬虫必须首先发现该网页。不在网站地图中或没有内部链接的网页(称为 "孤儿页")无法被爬虫发现,因此也就无法被抓取或编入索引。如果您希望某个网页被索引,它必须包含在网站地图中并有内部链接(最好两者都有)。
2.Nofollow 链接
Googlelebot 不会跟踪带有 "rel=nofollow "属性的链接。举例来说,如果一个页面只有一个 nofollow 链接,在抓取时就等于没有链接。
3.Robots.txt 文件
robots.txt 文件告诉网络爬虫可以访问和不能访问网站的哪些部分。如果您希望页面可以被抓取,就不能在 robots.txt 中禁止。
4.出入限制
网页可以有特定限制,阻止爬网程序访问,例如
- 某种登录系统
- 用户代理黑名单
- IP 地址黑名单
如何查找网站的可抓取性问题
检测网站可抓取性问题的最简单方法是使用搜索引擎优化工具,如 Ranktracker 的网站审计或免费的Ranktracker 网站管理员工具。
Ranktracker 网站管理员工具可以抓取整个网站,随时查看新问题或重复出现的问题。此外,它还会将问题分为不同类别,帮助您更好地了解网站的整体搜索引擎优化性能以及网站无法被抓取的原因。
常见问题
可抓取性和可索引性有什么区别?
可抓取性是指搜索引擎访问网页并抓取其内容的能力。可索引性是搜索引擎分析其抓取的内容并将其添加到索引中的能力。网页可以被抓取,但不能被索引。
网页无需抓取就能被 Google 索引吗?
令人惊讶的是,Google 可以在不抓取的情况下索引 URL,使其出现在搜索结果中。不过,这种情况很少 发生。出现这种情况时,Google 会使用锚文本和 URL 文本来确定页面的目的和内容重点。请注意,在这种情况下,谷歌不会显示页面的标题。这种情况在 Google 的robots.txt 简介中有简要说明。
有关改进网站搜索引擎优化和确保正确抓取性的更多见解,请访问Ranktracker 博客并浏览我们全面的搜索引擎优化指南。此外,您还可以在我们的搜索引擎优化词汇表中熟悉关键的搜索引擎优化术语和概念。