基于apache软件设计的站内搜索引擎系统

作者：用户投稿来源：网络发布时间： 13/05/07

【编者按】：网学网其他类别为您提供基于apache软件设计的站内搜索引擎系统参考，解决您在基于apache软件设计的站内搜索引擎系统学习中工作中的难题，参考学习。

客服咨询，网学网竭诚为您服务，本站永久域名：myeducs.cn

2.5互联网搜索引擎的研究
当今的搜索引擎大多采用集中式的搜索方式。所谓集中式就是通过很多服务器把网络资源全部下载到本地，然后做一些处理，为搜索做准备。搜索引擎结构大致分为：搜索器、索引器和检索器等几部分组成。搜索器就是人们所说的网络蜘蛛(Web Spider)或者叫网络机器人。通过这种Spider程序，可以从一个网页出发，通过提取其中的URL，在遵从Robot Exclusion协议的前提下，不断地提取得到的URL，并且下载本URL的资源；而索引器的主要工作则是利用下载的网络资源，提取索引项，用于生成文档库的索引表；检索器主要是通过理解用户的查询需求，在文档库中检索出文档并且进行快速匹配，然后进行相关性排序，通过链接网页提供给用户检索结果。至此，完成搜索。
3.4 LUCENE的倒排序原理
LUCENE 的索引排序是使用了倒排序原理，
该结构及相应的生成算法如下：
设有两篇文章1和2
文章1的内容为：Tom lives in Guangzhou,I live in Guangzhou too.
文章2的内容为：He once lived in Shanghai.
1 、由于LUCENE是基于关键词索引和查询的，首先我们要取得这两篇文章的关键词，通常我们需要如下处理措施
(1) 我们现在有的是文章内容，即一个字符串，我们先要找出字符串中的所有单词，即分词。英文单词由于用空格分隔，比较好处理。中文单词间是连在一起的需要特殊的分词处理。
5.关键技术
5.1 LUCENE增量索引
LUCENE搜索与数据库搜索最大的不同之处就是为要搜索的内容建立了全文索引的机制
其他的一些搜索引擎只支持批量的索引，有时数据源有一点增加也需要重建索引，大部分的搜索（数据库）引擎都是用B树结构来维护索引，索引的重建会导致大量的IO操作，导致了搜索效率的下降

本站发布的计算机毕业设计均是完整无错的全套作品，包含开题报告+程序+论文+源代码+翻译+答辩稿PPT

本文选自计算机毕业设计http://myeducs.cn
论文文章部分只是部分简介，如需了解更多详情请咨询本站客服！ QQ交谈 QQ3710167

上一篇资讯：工作流和库存管理的结合研究

下一篇资讯：在NET平台下设计的ORM框架