什么是爬行器?
爬虫是一种互联网程序,用于系统地浏览互联网。爬虫最常用于搜索引擎发现和处理网页,以便将其编入索引并显示在搜索结果中。
除了处理 HTML 的爬虫外,一些特殊的爬虫还用于索引图像和视频。
在现实世界中,需要了解的主要网络爬虫是世界顶级搜索引擎使用的爬虫:Googlebot、Bingbot、Yandex Bot 和 Baidu Spider。
好爬虫与坏爬虫
好的爬虫就像一个机器人,可以帮助您的网站,主要是将您的内容添加到搜索索引中或帮助您审核网站。优秀爬虫的其他特征还包括:它能识别自己的身份,遵循您的指令,并调整爬行速度以避免服务器超载。
不良爬虫是指对网站所有者没有任何价值,而且可能怀有恶意的机器人。不良爬虫可能无法识别自己的身份,规避你的指令,给服务器造成不必要的负载,甚至窃取内容和数据。
爬行器类型
爬虫主要有两种类型:
- 持续抓取机器人:这些机器人全天候进行抓取,以 发现新网页并重新抓取旧网页(如 Googlebot)。
- 按需机器人:这些机器人将抓取有限数量的页面,并仅在收到请求时执行抓取(如 Ranktracker 网站审计机器人)。
网站抓取为何重要?
搜索引擎爬虫的主要目的是找出您网站上的内容,并将这些信息添加到搜索索引中。如果您的网站没有被抓取,那么您的内容就不会出现在搜索结果中。
网站抓取并不是一次性的,对于活跃的网站来说,这是一个持续的过程。机器人会定期重新抓取网站,查找新网页并将其添加到搜索索引中,同时更新现有网页的信息。
虽然大多数爬虫都与搜索引擎有关,但也有其他类型的爬虫。例如,Ranktracker 网站审计机器人可以帮助您了解网站在搜索引擎优化方面存在哪些问题。
爬虫如何工作?
简而言之,像 Googlebot 这样的网络爬虫会通过网站地图、链接和通过 Google Search Console 手动提交的方式发现您网站上的 URL。然后,它会跟踪这些页面上的 "允许 "链接。
在这样做的同时,它还会尊重 robots.txt 规则以及链接和单个页面上的任何 "nofollow "属性。
有些网站(页面超过 100 万页且定期更新的网站,或页面超过 1 万页且内容每日更新的网站)的 "抓取预算 "可能有限。这是指机器人在单次会话中可用于网站的时间和资源。
爬行优先级
由于抓取预算的容量有限,爬虫会根据一系列抓取优先级来运行。例如,Googlebot 会考虑以下几点:
- URL 的页面排名
- 页面的更新频率
- 页面是否是新的
这样,爬虫就能集中精力首先抓取网站上最重要的页面。
移动版与桌面版爬虫对比
Googlebot 有两个主要版本:Googlebot 桌面版和 Googlebot 智能 手机版。如今,Google 使用移动优先索引,这意味着其智能手机代理是用于抓取和索引网页的主要 Googlebot。
这些不同类型的爬虫可以看到不同版本的网站。从技术上讲,机器人使用 HTTP 请求头 User-Agent 和一个唯一标识符向网络服务器表明自己的身份。
爬虫友好型网站的最佳实践
为了确保您的网站做好了被抓取的准备,我们建议您采取以下几个步骤。请遵循这些步骤,以便为您的关键页面提供最佳索引和排名机会。
1.检查 Robots.txt 文件
robots.txt 文件是您网站上的一个文件,它使用一系列爬虫指令与这些机器人进行交流。确保该文件没有禁止好的机器人访问您希望被索引的任何页面或部分。使用 Google 的robots.txt 测试器等工具检查错误。
2.提交网站地图
提交网站地图是关键的一步。网站地图列出了希望被收录的所有网页。在 Google Search Console 中,您可以在 Index > Sitemaps 下提交网站地图。其他搜索引擎(如 Bing 网站管理员工具)也有类似的流程。
3.明智使用爬虫指令
robots.txt 文件使用指令告诉爬虫允许或不允许抓取哪些页面。允许抓取网站导航中的重要页面非常重要。如果内容在 robots.txt 文件中被禁止抓取,那么任何页面级指令都不会被看到。
4.提供页面之间的内部链接
内部链接有助于搜索引擎了解每个页面的内容,并帮助爬虫在第一时间发现页面。内部链接还能帮助你塑造整个网站的 PageRank 流动方式。
5.减少 4xx 和不必要的重定向
4xx 错误向爬虫发出信号,表示该 URL 上的内容不存在。使用 Ranktracker Site Audit 等工具修复这些页面,或设置重定向到实时页面。此外,消除不必要的重定向和重定向链,以确保顺利爬行。
6.使用 Ranktracker 网站审计查找可抓取性和可索引性问题
Ranktracker网站审计工具可以通过检查网站上所有无索引页面和无跟踪链接来提供帮助。它可以发现任何破损的页面或过多的重定向,包括重定向链或循环,并指出任何孤儿页面。
常见问题
抓取和索引是一回事吗?
抓取是指发现可公开访问的网页和其他内容的过程。索引是指搜索引擎分析这些网页并将其存储到搜索索引中。
最活跃的爬虫是什么?
最流行的搜索引擎爬虫包括 Googlebot、Bingbot、Yandex Bot 和 Baidu Spider。更多详情,请查看Imperva Bot Traffic 研究。有趣的是,为整个链接数据库提供动力的 AhrefsBot 被发现是仅次于 Googlebot 的第二活跃的爬虫。
爬虫会伤害我的网站吗?
虽然大多数爬虫不会对您的网站造成危害,但有些恶意爬虫却可能造成危害。有害的爬虫可能会占用您的带宽,导致网页速度变慢,还可能试图从您的网站上窃取数据或搜刮内容。