百度蜘蛛的工作原理深入一讲

Square
百度蜘蛛的工作原理深入一讲
百度蜘蛛的工作原理深入一讲

对于百度蜘蛛的工作原理,很多SEOer都知道其是百度抓取网页的一种程序,互联网就如同一张大的蜘蛛网,每个节点相连交叉,供其爬行。百度蜘蛛的任务就是负责抓取各个网页的数据,然后将这些数据带回百度的索引库中进行多维度的分析,根据原创度、权重、以及用户体验等各种标准来判定一个网页的综合素质,然后根据这个判断结果来给出一个大概的初级排名。当网页被收录并且被展现在搜索结果页中后,百度还会根据它的点击率、跳出率、用户停留时间来辅助判断该页面内容对用户是否具有价值,然后实现排名波动调节,这也就是为什么我们关键词的排名位置大部分时间并不稳定的主要原因之一。

今天,博主想要与大家更深入一点讲讲百度蜘蛛的工作原理。之所以只是针对百度的蜘蛛,是因为博主只是从百度的官方页面中了解到了baiduspider的这些工作原理,但并不一定代表所有搜索引擎的爬行程序都是按照这个工作原理来实行的。

为什么新闻源的内容总是很快就被收录?

这是一个SEO行业众所皆知的潜规则。不管这个新闻源的内容是不是原创的,也不管它的内容有多烂,都几乎可以做到秒收录。新闻具有很强的实效性,所以自然不能与一般的文章一概而论,要有所区别。如果一条新闻等了一周的时间才被搜索引擎收录,这条新闻原本所具有的信息传播的价值也就大打折扣,早就成了昨日黄花。所以百度针对这种情况,特别为各大新闻源演变出一种特殊蜘蛛——Baiduspider-news(新闻蜘蛛)。它是百度蜘蛛的一门分支,是从百度蜘蛛演变出来的。

百度除了Baiduspider-news以外还有其他几种专用蜘蛛
百度除了Baiduspider-news以外还有其他几种专用蜘蛛

不光有Baiduspiser-news,另外还有:

Baiduspider-image(图片蜘蛛);

Baiduspider-video(视频蜘蛛);

以及其他广告蜘蛛、推广蜘蛛等等,每种蜘蛛执行的任务也只限于各自对应的领域,采取分工合作的模式来爬去网站资源。

而一般的百度蜘蛛程序的工作量也是最多最杂的,所有一般性质的文章页面都是由传统baiduspider来进行抓取的,尤其是现在自媒体的盛行时代,每个人都可以在互联网上发布文章、帖子。

而负责抓取新闻源的蜘蛛有着自身的特殊性,所以也就能够达到快速收录的目的。而今,想要开一个新闻性质的网站是需要门槛的,必须要有新闻行业的资质才行,这更是让新闻源自身的权重更上一层楼。越是特殊,越是能够得到搜索引擎的青睐,因为其本身就是一种权威的象征。

为什么在robots.txt文件中设置禁止蜘蛛抓取某些页面后,蜘蛛依然会抓取那些页面?

百度官方对于robots文件的详细说明
百度官方对于robots文件的详细说明

根据百度官方解释,因为百度DNS更新是有周期性的,在站长更新了robots文件后,百度需要一些时间才能更新,更新后,robots文件才能正式生效。所以,不要片面地认为robots文件没有用,而是因为你没有足够的耐心。

怎么才能让百度蜘蛛更频繁地来爬取自己的网站页面?

  1. 保持有规律的内容更新。就如同动物捕食一样,死掉的动物很难被猎食者看上眼,就像青蛙捕食苍蝇一样,你将一只死苍蝇放在它的面前都如同近视眼一般,而一旦是一只活苍蝇在它面前飞过,它的舌头就会快速将苍蝇卷入腹中。而对于百度蜘蛛来说,它也喜欢猎食新鲜的活物。一个网站如果连续几个月都没更新过任何内容,突然有一天心血来潮更新了好几篇新文章,你也别指望百度蜘蛛可以立即就能注意到它的存在。因为在它的印象里,你的网站跟个死物一般毫无生机,对它来说没有足够的吸引力。一般,要想百度蜘蛛频繁抓取你的网站内容,你需要保持一个良好的更新习惯,每周三篇以上的原创文章。
  2. 多更新原创文章。原创文章虽然不一定是有价值的,但是与抄袭文章相比,一般存在价值要更大。一篇文章在百度索引库中已经有了很多一模一样的复制品,那么这篇文章就不再具备任何竞争力了。而百度索引库空间也是有限的,不可能将互联网上所有的网页都储存在其中,所以蜘蛛就会将重复内容加以区分。如果一个网站很大一部分内容都是从别处转载过来的,蜘蛛前面几次来了发现都是这种内容,就不会那么轻信你的网站,降低你的权重。可能一个月来你这一次就走了。来你这里是浪费它的时间,收录了还会浪费空间。
  3. 建设有价值的外链有利于吸引百度蜘蛛。因为蜘蛛在互联网上爬行的方式就和现实中的蜘蛛在蜘蛛网上爬行的方式一样,从一个节点爬到另一个节点,而这个节点便是超链接。链接是链接网页的桥梁,说得更形象点,超链接便是链接网页的蛛网,供蜘蛛来回穿梭在互联网上。对于一个新站来说,建设外链是吸引蜘蛛的一种比较重要的方法之一。但前提是,同时你也要注重网站的内容保持高质量。更多详情请见《一个新站该怎么做外链推广?什么是高质量外链?

百度蜘蛛抓取一次网站一般需要多长时间?

如图,这是几天前另外一个网站的一次日志分析结果,百度蜘蛛在站内爬行了85个页面,总共耗时0.004小时,如果折合成秒,则为:

0.004*3600s=14.4s

平均每个页面为:

14.4s/85=0.16941s

当然,这只是博主本人出于无聊时所算出来的结果,只做闲聊用途而已,并不一定权威。因为每个页面的内容、图片以及加载速度各有不同,所以蜘蛛在每个站的抓取速度也就有千差万别之分。

以上便是博主想要与各位深入分享的百度蜘蛛的工作原理。

长尾关键词中的关键词顺序到底是重要的还是次要的?

个人微信公众号
个人微信公众号

声明:文章为拿着灼热的铁个人seo博客(公众号:lattestory520)原创,未经允许,禁止转载!

Comment

4 Replies to “百度蜘蛛的工作原理深入一讲”

  1. 看完此文后让我对百度蜘蛛的工作原理更加了解了,已收藏。

发表评论

电子邮件地址不会被公开。 必填项已用*标注