搜索引擎对于大家来说相比一点也不陌生,但是其中的一些算法大家可能不是很清楚。我们知道搜索引擎可以索引网站、分析网站,给网站一个排名。织梦源码网今天跟大家介绍的是搜索引擎的四大系统。
搜索引擎分四个系统,分别是下载、分析、索引和检索系统,这些系统都有各自的工作内容,少了其中一个,搜索引擎都不能算是完整的。下面我们就分别来看一下这四大系统。
一、下载系统
搜索引擎中的下载系统主要的工作就是下载和存储互联网中的所有网页,也就是我们经常说的蜘蛛,蜘蛛是用来抓取网页的。也就是说下载系统有下载和存储两个主要工作,一般抓取页面的方式是从一个页面抓取,收集页面中的所有链接,然后再去访问这个页面中的所有链接。
二、分析系统
搜索引擎抓取页面之后并不会收录所有页面,我们从服务器日志可以看出蜘蛛抓取了哪些页面,但不一定收录。搜索引擎分析系统的主要工作就是对网站内容进行检查,将页面中的标题、正文、链接或广告等内容进行分析,将重复或者无效页面分析出来,帮助搜索引擎收录内容。
三、索引系统
通过下载、存储和分析系统将网页抓取之后进行过滤,会将有价值的页面留下,接下来就会对这个页面进行索引、分词,分析词语在内容中出现的位置、出现的频率,对页面内容中的标题和摘要进行记录。我们常用的site指令就可以查询到网站收录的所有内容,收录一篇内容就增加一条索引项,显示的快照就是建立索引的时间,而快照更新就是蜘蛛再次访问抓取后的页面时对其进行重新索引,因此页面快照就更新了。
四、检索系统
这个系统和用户有非常大的关系,这个系统和用户可以建立联系。用户在浏览器中输入搜索词,搜索引擎就要对搜索词进行分词,得出索引词,再到索引库中进行匹配,最后就是搜索结果。根据页面综合权重和搜索词吻合度进行排序,这就是我们所说的排名。
相关文章
预留评论插件