百度搜索引擎工作原理

搜索引擎工作原理

太原SEO

搜索引擎工作原理

建立索引

1、  百度分词

百度因为是中文搜索引擎从在中国的用户是最多的,它拥有强大的分析技术。一个字段可以拆分出许多的关键词,如同英文单词一样,拆分出来的词我们叫做单词。

2、  为什么要进行分词

中国的文字语言历史悠久,汉字多达9万左右,而常用的汉字也有4000左右,这些常用的汉字不用数量及规则进行随意组合,其结果已经达到天文数字,对于搜索引擎来说是不能很好的处理这些文字的。如果我们按相邻的词出现的频率来统计,就可以把这4000个常用汉字组合成8万左右个单字,虽然比单个汉字多了很多,但是易于搜索引擎的匹配。用户搜索词如果拆分为单词要明显比拆分为单字的数量少,如果是文档的话,拆分成单词也比单字数量要少的多。这样搜索引擎只要拥有一个词库就可以完全处理用户的搜索。

3、  分词方法

搜索引擎是没有眼睛的,百度分词的具体实现办法是比较复杂的,但是原理还是比较简单的,有以下这三种分词的方法:

1) 正向最大化匹配从左向右拆分

2)反向最大化匹配从右向左反向分词

3)双向最大化匹配左右同时进行分词

4、  案例的分析

这里我们简单的讲到了百度分词方法,是让同学们了解百度会对文档和字段进行切分,避免大家在优化中出现关键词的堆积和重复;例如:留学_美国留学_留学费用_美国哈弗留学品牌词_这个表示词段切分。

以上我们明显可以看到留学和美国留学这两个词,可以通过美国哈弗留学这个词进行拆分就能得到,所以注意这些关键词的堆砌。

输出结果

用户在输入需要搜索的词后,百度会进行一系列复杂的分析,根据最终的结论在索引库中寻找与之最为匹配的网页,按照用户输入关键词所体现的需求及网页的优劣进行打分评估,并按照最终的分数进行排列,展现出结果。

百度的查询系统是直接面向客户的系统,响应用户的搜索,返回搜索结果。

并不是所有包含搜索词的已经被收录的页面都要进行一次相似度计算,特别的对于一些热门的搜索词,这个是非常费劲的;同时,搜索引擎是可以按照页面的链接权重来进行筛选,忽略掉链接权重值比较低的页面,优先链接权重值比较高的页面。

总结:从蜘蛛的爬取到输出搜索结果,期中经历一系列复杂的算法,SEO必须遵守百度分词的方法,合理控制我们网站的关键词布局,从而让搜索引擎更快、更好的来抓取我们的网页。

分享到:

发表评论

2007-2013 太原SEO 百度地图