怎样有效管理和优化网站的抓取预算?

时间:2024-04-25 14:40:45 作者:莫远东

抓取预算(crawl budget)是指 Google 愿意花在抓取给定网站上的时间。虽然看起来谷歌有点全能,但他们的资源有限,而且网络庞大。因此,他们必须以某种方式确定优先级并分配一定的时间或资源来抓取给定的网站。现在他们根据网站在用户中的受欢迎程度和内容的新鲜度来确定优先级,因为谷歌机器人有点渴望新的、前所未见的 URL。今天,我们将专注于如何充分利用您拥有的抓取预算,这通常在任何情况下都是一个更容易使用的杠杆。

怎样有效管理和优化网站的抓取预算?

抓取预算问题的原因

那么抓取预算问题实际上是如何产生的呢?

1. 刻面(facet)

现在我认为网站上可能导致抓取预算问题的主要问题首先是方面。所以你可以想象在一个电子通信网站上,想象我们有一个笔记本电脑页面。我们也许可以按大小过滤它。您有一个 15 英寸的屏幕和 16 GB 的 RAM。那里可能有很多不同的排列,可能会导致大量的 URL,而实际上我们只有一个页面或一个类别——笔记本电脑页面。然后可以对这些重新排序以创建其他执行完全相同操作但必须单独抓取的 URL。同样,它们的排序可能不同。可能会有分页等等。因此,您可以让一个类别页面生成大量 URL。

2. 搜索结果页面(Search results pages)

经常出现的其他一些事情是来自内部站点搜索的搜索结果页面通常可以,特别是如果它们是分页的,它们可能会生成许多不同的 URL。

3. 列表页面(Listings pages)

如果您允许用户上传他们自己的列表或内容,那么随着时间的推移,如果您考虑工作板或 eBay 之类的东西,并且它可能有大量页面,那么这可能会累积成大量的 URL。

修复抓取预算问题

那么,您可以使用哪些工具来解决这些问题并充分利用您的抓取预算?作为基准,如果我们考虑正常 URL 与 Googlebot 的行为方式,我们会说,是的,它可以被抓取,是的,它可以被编入索引,是的,它通过了 PageRank。所以像这样的 URL,如果我链接到我网站上的某个地方,然后谷歌遵循该链接并索引这些页面,这些可能仍然具有顶部导航和站点范围的导航。

因此,实际上传递到这些页面的链接将被循环使用。当我们通过这么多不同的页面和这么多不同的过滤器进行链接时,会由于稀释而造成一些损失。但最终,我们正在回收这个。没有泄漏的 PageRank 的黑洞损失。

1. Robots.txt

现在处于相反的极端,您可以采用的最极端的抓取预算解决方案是 robots.txt 文件。如果你在 robots.txt 中屏蔽了一个页面,那么它就无法被抓取。从技术上讲,robots.txt 中阻止的站点和页面可以编入索引。您有时会看到网站显示或 SERP 中显示的带有此元描述的页面无法显示,因为该页面在 robots.txt 或此类消息中被阻止。

所以从技术上讲,它们可以被索引,但在功能上,它们不会对任何东西或至少任何有效的东西进行排名。所以从技术上讲,他们没有通过 PageRank。当我们链接到这样的页面时,我们仍在传递 PageRank。但是,如果它随后在 robots.txt 中被阻止,则 PageRank 不会再进一步。所以我们创造了一个泄漏和一个黑洞。所以这是一个相当严厉的解决方案,尽管它很容易实现。

2. Link-level nofollow

如果我们在主要笔记本电脑类别页面上获取指向这些方面的链接,并且我们在这些链接内部放置了一个 nofollow 属性,那么这将有一些优点和缺点。我认为更好的用例实际上会更多地出现在列表案例中。所以想象一下,如果我们经营一个二手车网站,我们有数百万种不同的二手车产品列表。现在我们真的不希望谷歌在这些单独的列表上浪费时间,这可能取决于我们网站的规模。

但偶尔名人可能会上传他们的汽车或类似的东西,或者可能会上传非常稀有的汽车,这将开始获得媒体链接。所以我们不想在 robots.txt 中阻止该页面,因为在这种情况下我们会浪费这些外部链接。因此,我们可能会在指向该页面的内部链接上做些什么,我们可能会在内部不关注该链接。所以这意味着它可以被抓取,但前提是它被找到了,只有当谷歌以其他方式找到它时,比如通过外部链接或类似的东西。

我们在这里有一个中途之家。现在从技术上讲,这些 nofollow 是一个提示。根据我的经验,Google 不会抓取仅通过内部 nofollow 链接的页面。如果它以其他方式找到页面,显然它仍然会抓取它。但总的来说,这可以作为一种限制爬网预算的有效方式,或者我应该说使用爬网预算更有效。该页面仍然可以被索引。

这就是我们在该示例中试图实现的目标。它仍然可以通过 PageRank。这是我们试图实现的另一件事。尽管您仍然通过此 nofollow 链接失去了一些 PageRank。这仍然算作一个链接,因此您将失去一些原本会被传送到该后续链接的 PageRank。

3. Noindex, nofollow

noindex 和 nofollow对于 ecomm 网站上的这些页面来说,显然是一个非常常见的解决方案。在这种情况下,可以抓取页面。但是一旦谷歌到达那个页面,它会发现它是 noindex,随着时间的推移它会抓取它的次数会少得多,因为抓取 noindex 页面的意义不大。再说一次,我们在这里有一个中途之家。

显然,它不能被索引。它没有索引。它不会向外传递 PageRank。PageRank 仍然传递到这个页面,但因为它在 head 部分有一个 nofollow,它不会向外传递 PageRank。这不是一个很好的解决方案。为了节省抓取预算,我们必须在此处达成一些妥协。

4. Noindex, follow

所以很多人曾经认为,哦,好吧,解决这个问题的方法是使用 noindex follow 作为两者的最佳选择。所以你在其中一个页面的头部放置了一个 noindex follow 标签,哦,是的,每个人都是赢家,因为我们仍然得到了同样的爬行好处。我们仍然没有索引这种我们不想索引的新重复页面,但 PageRank 解决方案是固定的。

几年前,谷歌出来说,“哦,我们自己没有意识到这一点,但实际上,随着时间的推移,我们越来越少地抓取这个页面,我们将不再看到链接,然后它就不会了。”所以他们有点暗示这不再是一种仍然通过 PageRank 的方式,最终它会被视为 noindex 和 nofollow。再说一次,我们在那里有一种稍微妥协的解决方案。

5. 规范(Canonical)

所有世界中真正最好的可能是规范的。使用规范标签,随着时间的推移,它仍然会被抓取得少一点,规范化的版本,很棒。它仍然不会被索引,规范化的版本,很好,它仍然通过 PageRank。所以这看起来很棒。在很多情况下,这似乎是完美的。但这只有在页面接近足够重复的情况下才有效,谷歌愿意将它们视为重复并尊重规范。如果他们不愿意将它们视为重复项,那么您可能不得不重新使用 noindex。或者,如果您认为实际上这个 URL 根本没有存在的理由,我不知道这种错误的顺序组合是如何产生的,但这似乎毫无意义。

6. 301

我不会再链接到它了。但是,如果有些人仍然以某种方式找到 URL,我们可以使用 301 作为一种经济,最终会表现得非常好......我会说比规范和 noindex 更能节省抓取预算,因为谷歌没有甚至不必在极少数情况下查看页面,它确实会检查它,因为它只是遵循 301.它将解决我们的索引问题,并且将通过 PageRank。但显然,这里的权衡是用户也不能访问这个 URL,所以我们必须接受。

实施爬网预算策略

综上所述,我们将如何实际使用这些策略?那么,如果您想进行爬网预算项目,我会推荐哪些活动?不太直观的一种是速度。就像我之前说的,谷歌正在分配一定量的时间或资源来抓取给定的网站。因此,如果您的站点非常快,如果您的服务器响应时间很短,如果您使用轻量级 HTML,它们将在相同的时间内浏览更多页面。

所以这违反直觉是解决这个问题的好方法。日志分析,这有点传统。通常,您网站上的哪些页面或哪些参数实际上消耗了您所有的抓取预算是非常不直观的。大型站点上的日志分析通常会产生令人惊讶的结果,因此您可能会考虑这一点。然后实际使用其中一些工具。

因此,我们认为用户甚至不需要查看的冗余 URL,我们可以 301.用户确实需要查看的变体,我们可以查看规范或 noindex 标签。但我们也可能希望首先避免链接到它们,这样我们就不会因为稀释或死胡同而将某种程度的 PageRank 丢失到那些规范化或无索引变体中。

Robots.txt 和 nofollow,正如我在浏览它时暗示的那样,这些是您希望非常谨慎地使用的策略,因为它们确实会造成这些 PageRank 的死胡同。如果您的网站上有一个您只使用的站点地图对于新鲜或最近的 URL,您最近更改的 URL,然后因为 Googlebot 如此渴望,就像我说的那样,对新鲜内容,他们将开始频繁地抓取此站点地图。因此,您可以使用这种策略将抓取预算定向到新的 URL,这样每个人都会赢。

Googlebot 只想查看新的网址。您可能只想让 Googlebot 看到新的网址。因此,如果您有一个仅用于该目的的站点地图,那么每个人都会获胜,这可能是一个很好且易于实施的技巧。所以这就是全部。

免责声明:本站不对文章内容负责,仅供读者参考,版权归原作者所有。如有影响到您的合法权益(内容、图片等),请联系本站删除。