百度蜘蛛程序工作原理,让我们告诉你蜘蛛程序是如何抓取你网站网页的
来源:互联网浏览次数:4549
SEO优化的人首先一定会想了解百度蜘蛛程序的原理,因为了解到蜘蛛程序的原理即可让自己的网站达到秒收的效果,那么小编今天就和大家来说说,百度蜘蛛程序是如何爬取一个网站,又是如何收录一个网站的!


首先我们要了解一下对于一个新站,蜘蛛程序是发现我们的,一般来说有这么三个渠道,一是你提交了你的网站到搜索引擎;二是其他网站上出现了你的链接;第三就是你使用浏览器打开你网页时保存的缓存。了解了蜘蛛程序是如何发现我们的网站后就要知道蜘蛛程序是如何抓取我们的网站了,下面我们就给大家详细说说蜘蛛程序处理整收录过程中的各个步骤。


第一步:提取原始网页文字


搜索引擎预处理首先要做的就是从HTML网页中去除各种标签,程序,提取其中可以用于网页排名的文字。但是除了文字之外也会提取一些特殊的包含文字信息的代码比如,META标签,TITLE标签,DESCRITION,KEYWORDS,ALT,链接中的锚文字。


第二步:中文分词


中文分词是中文搜索引擎特有的步骤,因为中文不像英文那样,词与词之间有间隔,所有的词都是连在一起的,这就要求搜索引擎能够区分哪几个字组成一个词,那个字本身就是一个词。比如:SEO优化教程将被分为SEO优化,教程两个词。


中文分词的两张方法:基于词典匹配,基于统计匹配。统计匹配是计算字与字之间相邻出现的频率来计算。


搜索引擎对页面的分词取决于词库的规模,准确性,分词算法的好坏,而不是取决于页面本身的情况。SEOER能做的事情很少,唯一能做的是页面上用某种形式提示搜索引擎。比如在标题,H1等各种标签及黑体中出现关键词。


通过点击查看百度快照,可以大致看出搜索引擎是如何分词的


知道分词原理去做锚文本外链才更加高效,举例:比如搜索引擎优化,被分为搜索引擎优化三个词的时候那分别做三个词的锚文本链接,这样提高搜索引擎优化效果最好。如果直接以搜索引擎优化为锚文本则排名没有那么好。


第三:去停止词


无论是中文搜索引擎还是英文搜索引擎,页面中会出现一些词频率很高,但是对内容没有任何影响的词,比如的,地,得之类的助词,啊,哈,呀等感叹词。搜索引擎在预处理的过程会去掉这些词,使索引数据更为突出,减少无谓的计算量。


第四:消除噪声


除了停止词,还有一部分内容对页面主题没有什么贡献的,比如版权声明,导航条,广告等这些都属于噪声,对页面只能起到分散作用。


消除噪声最基本的办法是根据HTML标签对页面分块,区分出页头,页尾,导航,正文,广告等区域,在网站上大量重复出现的区块往往都是噪声,对噪声消噪之后,剩下的就是网页的主题内容。


第五:去重


对于用户和搜索引擎来说不喜欢同一篇内容在不同网站和同一个网站的不同地方上出现,搜索引擎就需要识别并删除这些重复内容,这个过程就是去重。


去重基本方法是对页面特征关键词计算指纹,也就是说在文章中选取最具有代表性出现频率最高的一部分(是分词,去停止词,消噪之后)关键词,通常选择10个左右特征关键词就可以达到较高的计算准确性了。


针对现在一些不断增加一些跟文章无关紧要的词,进行所谓的伪原创,一样逃不过搜索引擎的去重算法。这样做无法改变关键词的特征。搜索引擎的去重算法很可能不止于页面级,而是进行到段落。


注意:


搜索引擎蜘蛛的爬行和抓取,只是搜索引擎工作的第一步,也就是完成数据的收集任务。


搜索引擎蜘蛛访问任何一个网站的时候,都会先访问网站根目录中的ROBOTS文件,检查是否许可搜索引擎蜘蛛的抓取。


不管是浏览器或者是搜索引擎蜘蛛还是其他访问程序,都会标明自己的身份代理名称也就是USER-AGENT:


文件储存:搜索引擎蜘蛛爬行抓取的数据存储到数据库,得到的数据和浏览器得到的HTML是完全一样的,并且每个URL都会标记上自己独特的文件编号。


百度搜索引擎调度程序的原则,告诉并调度搜索引擎蜘蛛应该抓取下载什么样的网页,怎么去发现网页,发现更多网页;


链接跟踪:为抓取更多页面,搜索引擎蜘蛛会跟踪页面上所有的链接,并顺着链接继续抓取下去。


深度优先:指的是蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后再返回第一个页面,沿着另外一个链接再继续往前爬行。


广度优先:当搜索引擎蜘蛛在一个页面上发现多个链接时候,不是顺着链接一直向前,而是把页面上所有第一层链接先抓一遍,然后再抓第二层。


权重优先:是指网页的反向链接较多的页面优先抓取。一般情况下网页抓取到40%是正常范围,60%算很好,100%是不可能。


注意:百度蜘蛛只是负责爬行,访问,抓取,下载,存储到数据补充区,优先和权重原则都是搜索引擎调度程序去计算和分配。


百度搜索引擎蜘蛛的工作要素:


在深度优先,权重优先的机制下,百度蜘蛛终于访问抓取到了网站


百度蜘蛛抓取下载到网页首页后,调度程序会计算网页中的所有的URL,再继续返回给百度蜘蛛下一步的抓取链接列表,继续深入抓取下载更多的网页。


百度蜘蛛的应用原理


在不改变板块结构的情况下,增加相关连接来提高网页质量,通过增加其他页面对该页的反向连接来提高权重,通过外部连接增加权重。如果改变了板块结构将导致seo的重新计算,所以一定不能改变板块结构的情况下来操作,增加连接要注意一个连接的质量和反向连接的数量的关系,短时间内增加大量的反向连接将导致k站,连接的相关性越高,对排名越有利。


怎么样吸引搜索引擎蜘蛛


网站页面质量高,资格老的网站被认为权重高,蜘蛛对这样的网站的爬行深度高,更多的内页被收录


页面更新频率快,质量好且内容原创的也更容易被收录。


导入链接质量高的会让蜘蛛快速抓取并深度抓取。


与首页的点击距离,首页权重最高,离首页点击越近,页面权重越高,被爬行的机会也就越大。


排序原理的更新升级


第一:搜索引擎刚开始的时候,是根据网页中的关键词和搜索词是否匹配的相关性原则,那时候关键词匹配度,关键词密度,频率都直接影响排名。


第二:居于链接分析技术减少垃圾网页排名,提高用户体验度。可以靠反向链接的相关性,反向链接的锚文本链接来判定网页跟搜索词的匹配度,而不一定非要在网页中出现跟搜索词完全的匹配的关键词了。

成功案例

做好网站的SEO关键词排名,企业真有做不完的单!

智慧党建系统开发优化

创客教育网站排名一例