图文详解百度搜索引擎的原理
本文摘要:首页SEO教程SEO入门seo优化互联网营销教程视频站长资讯电商信息科技百度搜索引擎相册你的位置:首页 ? SEO入门 ? 正文图文详解百度搜索引擎的原理选择字号: 超大 标准 发布 | 作者:Searcheo | 5个评论 | 人浏览 一名合格的seo技术工程师,一定会了解百度搜
SEO教程网 首页SEO教程SEO入门seo优化互联网营销教程视频站长资讯电商信息科技百度搜索引擎相册 你的位置:首页 ? SEO入门 ? 正文 图文详解百度搜索引擎的原理

选择字号: 超大 标准 发布 | 作者:Searcheo | 5个评论 | 人浏览

 一名合格的seo技术工程师,一定会了解百度搜索引擎的原理,对于百度和谷歌的原理几乎类似,只是其中有些细节不同,比如分词算法等,因为国内搜索一般都是百度,所以我们以后的课程都会针对于百度,当然,基础类的只是同样适用谷歌!

 百度搜索引擎的原理其实不是很难,首先百度搜索引擎大致分为4个部分,第一个部分就是蜘蛛爬虫,第二个部分就是数据统计分析系统,第三个部分是索引系统,第四个就是查询系统咯,当然这只是基本的4个部分!

 下边我们来讲百度搜索引擎的工作内容:

什么叫百度搜索引擎蜘蛛,什么叫爬虫程序?

 百度搜索引擎蜘蛛程序,其实就是百度搜索引擎的一个自动程序运行,它的作用是啥呢?其实不是很难,就是在互联网技术中浏览信息,然后把这些信息都抓取到百度搜索引擎的网络服务器上,然后建立索引库等等,我们可以把百度搜索引擎蜘蛛当做一个用户,然后这个用户来访问我们的网站,然后在把我们网站的内容保存到自己的电脑!比较好理解。

百度搜索引擎蜘蛛是怎样抓取网页的呢?

 发现某一个链接 → 下载这一个网页 → 加入到临时库 → 提取网页中的链接 → 在下载网页 → 循环

 首先百度搜索引擎的蜘蛛需要去发现链接,至于怎么发现就简单了,就是通过链接链接链接。百度搜索引擎蜘蛛在发现了这个链接后会把这个网页下载下来并且存入到临时的库中,当然在同时,会提取这个页面所有的链接,然后就是循环。

 百度搜索引擎蜘蛛几乎是二十四小时不休息的(在此为它感到悲剧,没有假期。哈哈。)那么蜘蛛下载回来的网页该怎么办呢?这就需要到了第二个系统,也就是百度搜索引擎的数据分析系统。

百度搜索引擎的蜘蛛抓取网页有规律吗?

 这个问题问的好,那么百度搜索引擎蜘蛛抓取网页到底有规律吗?答案是有!

 如果蜘蛛胡乱的去抓取网页,那么就费死劲了,互联网技术上的网页,每天都增加那么那么那么多,蜘蛛怎么可以抓取的过来呢?所以说,蜘蛛抓取网页也是有规律的!

蜘蛛抓取网页策略1:深度优先

 什么叫深度优先?简单的说,就是百度搜索引擎蜘蛛在一个页面发现一个连接然后顺着这个连接爬下去,然后在下一个页面又发现一个连接,然后就又爬下去并且全部抓取,这就是深度优先抓取策略。大家看下图

深度优先

 在上图中就是深度优先的平面图,我们假如网页A在百度搜索引擎中的权威度是最高的,假如D网页的权威是最低的,假如说百度搜索引擎蜘蛛按照深度优先的策略来抓取网页,那么就会相反了,就是D网页的权威度变为最高,这就是深度优先!

蜘蛛抓取网页策略2:宽度优先

 宽度优先比较好理解,就是百度搜索引擎蜘蛛先把整个页面的链接全部抓取一次,然后在抓取下一个页面的全部链接。

宽度优先

 上图呢,就是宽度优先的平面图!这其实也就是大家平时所说的扁平化设计结构,大家或许在某个神秘的角落看到一一篇文章,告诫大家,网页的层度不能太多,如果太多会导致收录很难,这就是来对付百度搜索引擎蜘蛛的宽度优先策略,其实就是这个原因。

蜘蛛抓取网页策略3:权重优先

 假如说宽度优先比深度优先好,其实也不是绝对的,只能说是各有各的好处,现在百度搜索引擎蜘蛛一般都是两种抓取策略一起用,也就是深度优先+宽度优先,并且在使用这两种策略抓取的时候,要参照这条连接的权重,假如说这条连接的权重还不错,那么就采用深度优先,假如说这条连接的权重很低,那么就采用宽度优先!

 那么百度搜索引擎蜘蛛怎样知道这条连接的权重呢?

 这里有2个因素:1、层次的多与少;2、这个连接的外链多少与质量;

 那么如果层级太多的链接是否就不会被抓取呢?这也不是绝对的,这里边要考虑许多因素,我们在后边的进阶中会降到逻辑策略,那时候我在详细的给大伙说!

蜘蛛抓取网页策略4:重访抓取

 我想这个比较好理解,就是比如昨天百度搜索引擎的蜘蛛来抓取了我们的网页,而今天我们在这个网页又加了新的内容,那么百度搜索引擎蜘蛛今天就又来抓取新的内容,这就是重访抓取!重访抓取也分为两个,如下:

1、全部重访

 所谓全部重访指的是蜘蛛上次抓取的链接,然后在这一个月的某一天,全部重新去访问抓取一次!

2、单个重访

 单个重访一般都是针对某个页面更新的频率比较快相对稳定的页面,假如说我们有一个页面,1个月也不更新一次。

 那么百度搜索引擎蜘蛛第一天来了你是这个样子,第二天,还是这个样子,那么第三天百度搜索引擎蜘蛛就不会来了,会隔一一段时间在来一次,比如隔1个月在来一次,或者等全部重访的时候在更新一次。

 以上呢,就是百度搜索引擎蜘蛛抓取网页的一些策略!那么我们上边说过,在百度搜索引擎蜘蛛把网页抓取回来,就开始了第二个部分,也就是数据统计分析的这个部分。

数据统计分析系统

 数据统计分析系统,是处理百度搜索引擎蜘蛛抓取回来的网页,那么数据统计分析这一块又分为了一下几个:

1、网页结构型

 简单的说,就是把那些html代码全部删掉,提取出内容。

2、消噪

 消噪是啥意思呢?在网页结构型中,已经删掉了html代码,剩下了文字,那么消噪指的就是留下网页的主题,删掉没用的内容,比如版权!

3、查重

 查重比较好理解,就是百度搜索引擎查找重复的网页与内容,如果找到重复的页面,就删除。

4、分词

 分词是神马东西呢?就是百度搜索引擎蜘蛛在进行了前面的步骤,然后提取出正文的内容,然后把我们的内容分成N个词语,然后排标出来,存入索引库!同时也会计算这一个词在这个页面出现了几回。

5、链接分析

 这一个步骤是我们平时所做的做烦躁的工作,百度搜索引擎会查询,这个页面的反链有多少,导出链接有多少以及内链,然后给这个页面多少的权重等。

数据索引系统

在进行了上边的步骤之后,百度搜索引擎就会把这些处理好的信息放到百度搜索引擎的索引库中。那么这个索引库又大致分为以下两个系统:

正排索引系统

 什么叫正排索引?简单的说,就是百度搜索引擎把所有URL都加上一个编号,然后这个编号对应的就是这个URL的内容,包括这个URL的外链,关键字密度等等数据。

百度搜索引擎简单的原理概况

百度搜索引擎蜘蛛发现连接 → 根据蜘蛛的抓取策略抓取网页 → 然后交到数据分析系统的手中 → 分析网页 → 建立索引库


您的网站选填

验证的码 必填,不填不让过哦,嘻嘻。

记住我,下次回复时不用重新输入私人信息