什么是 Googlebot?
Googlebot 是对谷歌网络爬虫的称呼,它们为谷歌的各种服务(包括其搜索索引)收集信息。
它有两个主要版本:Googlebot Desktop 和 Googlebot Smartphone。随着移动优先索引的推出,Googlebot Smartphone 成为谷歌搜索索引的主要爬虫。
那么,Googlebot 是如何工作的呢?
Googlebot 会不断抓取网页以发现新网页,将网页发送到搜索索引中进行处理,并重新抓取网页以查找新的/更新的信息。
在此过程中,Googlebot 会严格遵守 robots.txt 文件中的规则以及针对网页和链接的爬虫指令。
为什么 Googlebot 很重要?
Googlebot 是为整个 Google 搜索引擎提供动力的主要工具之一。没有它,整个搜索(以及搜索引擎优化)将不复存在。如果 Googlebot 不抓取网站,网站就不会被索引,也不会在搜索结果中显示。
因此,搜索引擎优化专业人员和网站管理员需要了解 Googlebot 是如何工作的。此外,确保爬虫正常访问网站,不出现任何可抓取性或可 发现性问题也很重要。
爬虫友好型网站的最佳实践
如果您想让 Googlebot 正常抓取您的网站并将网页编入索引,就必须确保某些事项到位。由于这并非一朝一夕之事,以下是一些需要定期遵循的最佳实践,以保持网站的抓取友好性。
1.检查 Robots.txt 文件
网站上的 Robots.txt 文件允许您控制抓取的内容。它使用爬虫指令与机器人进行通信。
您需要确保 robots.txt 文件不会禁止 Googlebot 抓取您希望被索引的网站页面/部分。
接下来,使用 robots.txt 测试工具查找文件中的任何错误。
您应确保 Googlebot 可以访问 robots.txt,即它没有在服务器上被阻止。
2.提交网站地图
提交网站地图是让 Google 知道您希望哪些网页被抓取和编入索引的最简单方法。
如果您使用 WordPress 上流行的搜索引擎优化插件,如Yoast或 Rank Math,那么创建网站地图并不难。它们会自动为您创建网站地图,您可以提交这些地图。
生成的 URL 将如下所示:yourdomainname.com/sitemap_index.html
要手动提交网站地图 URL,需要访问 Google Search Console,点击主菜单 "索引 "部分下的 "网站地图"。
3.明智使用爬虫指令
除 robots.txt 文件外,还有页面级指令通知爬虫允许(或不允许)抓取哪些页面。
因此,您需要确保您希望被索引的网页没有 "noindex "指令。同样,如果你希望它们的外链也能被抓取,也要确保它们没有 "nofollow "指令。
您可以使用 Chrome 和 Firefox 的搜索引擎优化工具栏来检查页面上的指令。
4.提供页面之间的内部链接
帮助页面更快被索引的另一个简单方法是将其链接到另一个已被索引的页面。由于 Googlebot 会重 新抓取页面,因此它会找到内部链接并快速抓取。
除了抓取之外,内部链接还能向网页传递所谓的 "链接汁液",从而提高网页的页面排名。
5.使用网站审计查找可抓取性和可索引性问题
最后,您可以使用网站审计工具查找与网站可索引性和可抓取性相关的问题。
网站审计可以帮你找到破损的页面、过多的重定向、重定向链、无索引页面、nofollow 链接、孤儿页面(没有内部链接的页面)等。
您可以使用Ranktracker 的 Web Audit 等工具免费监测网站的搜索引擎优化健康状况。
常见问题
抓取和索引是一回事吗?
不,两者并不相同。抓取意味着在网络上发现网页和链接。索引指的是存储、分析和组织抓取时发现的网页内容和网页之间的联系。
只有在页面被索引后,它才能在相关查询中显示为结果。
我能否验证访问我网站的网络爬虫是否真的是 Googlebot?
如果您担心垃圾邮件发送者或其他捣乱者可能会自称为谷歌爬虫访问您的网站,您可以验证爬虫是否真的是谷歌爬虫。
Googlebot 的主要爬虫是什么?
Googlebot 智能手机是当今最主要的爬虫。
用户代理标记:Googlebot
完整的用户代理字符串: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
有关 Googlebot 爬虫的完整列表,请点击此处。