2.5互联网搜索引擎的研究 当今的搜索引擎大多采用集中式的搜索方式。所谓集中式就是通过很多服务器把网络资源全部下载到本地,然后做一些处理,为搜索做准备。搜索引擎结构大致分为:搜索器、索引器和检索器等几部分组成。搜索器就是人们所说的网络蜘蛛(Web Spider)或者叫网络机器人。通过这种Spider程序,可以从一个网页出发,通过提取其中的URL,在遵从Robot Exclusion协议的前提下,不断地提取得到的URL,并且下载本URL的资源;而索引器的主要工作则是利用下载的网络资源,提取索引项,用于生成文档库的索引表;检索器主要是通过理解用户的查询需求,在文档库中检索出文档并且进行快速匹配,然后进行相关性排序,通过链接网页提供给用户检索结果。至此,完成搜索。 3.4 LUCENE的倒排序原理 LUCENE 的索引排序是使用了倒排序原理, 该结构及相应的生成算法如下: 设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1 、由于LUCENE是基于关键词索引和查询的,首先我们要取得这两篇文章的关键词,通常我们需要如下处理措施 (1) 我们现在有的是文章内容,即一个字符串,我们先要找出字符串中的所有单词,即分词。英文单词由于用空格分隔,比较好处理。中文单词间是连在一起的需要特殊的分词处理。 5.关键技术 5.1 LUCENE增量索引 LUCENE搜索与数据库搜索最大的不同之处就是为要搜索的内容建立了全文索引的机制 其他的一些搜索引擎只支持批量的索引,有时数据源有一点增加也需要重建索引,大部分的搜索(数据库)引擎都是用B树结构来维护索引,索引的重建会导致大量的IO操作,导致了搜索效率的下降 |