JSP搜索引擎的研究和设计

作者：用户投稿来源：网络发布时间： 13/05/13

网学网JSP,NET,JAVA类别编辑为广大网友搜集整理了：JSP搜索引擎的研究和设计绩等信息，祝愿广大网友取得需要的信息，参考学习。

客服咨询，网学网竭诚为您服务，本站永久域名：myeducs.cn

目录
第1章引言 1
1.1 选题背景： 1
1.2 现实意义 1
第2章搜索引擎的结构 3
2.1 系统概述 3
2.2 搜索引擎的构成 3
2.2.1 网络机器人 3
2.2.2 索引与搜索 3
2.2.3 Web服务器 3
2.3 搜索引擎的主要指标及分析 4
2.4 小节 4
第3章网络机器人 5
3.1 什么是网络机器人 5
3.2 网络机器人的结构分析 5
3.2.1 如何解析HTML 5
3.2.2 该类几种重要的方法。 6
3.2.3 Spider程序结构 6
3.2.4 如何构造Spider程序 7
3.2.5 如何提高程序性能 8
3.2.6 网络机器人的代码分析 9
3.3 小节 10
第4章基于Lucene的索引与搜索 11
4.1 什么是全文检索与全文检索系统？ 11
4.2 什么是Lucene全文检索 12
4.3 Lucene的系统结构分析 13
4.3.1 系统结构组织 13
4.3.2 数据流分析 14
4.4 Lucene索引构建逻辑模块分析 15
4.4.1 绪论 15
4.4.2 对象体系与UML图 16
4.4.3 Lucene的包结构 20
4.4.4 Lucene的主要逻辑图 21
4.4.5 对Lucene包的小结 22
4.5 Lucene查询逻辑 22
4.5.1 查询者输入查询条件 22
4.5.2 查询条件被传达到查询分析器中 22
4.5.3 查询遍历树 23
4.5.4 返回结果 23
4.6 Lucene 检索原理 23
4.7 Lucene和Nucth的中文分析模块 25
4.7.1 Nutch分析 25
4.7.2 Nutch中文搜索3.1 中文分词 26
4.7.3 利用JavaCC构造中文分析模块 27
4.7.4 分词小结 28
4.8 Lucene与Spider的结合 28
4.8.1 Index类的实现 28
4.8.2 HTML解析类 29
4.9 Lucene 小结 31
第5章基于Lucene的搜索引擎实现 32
5.1 基于Tomcat的Web服务器 32
5.1.1 什么是基于Tomcat的Web服务器 32
5.2 用户接口设计 32
5.2.1 客户端设计 32
5.2.2 服务端设计 33
5.3 在Tomcat上部署项目 35
5.4 小节 35
第6章搜索引擎策略 36
6.1 简介 36
6.2 面向主题的搜索策略 36
6.2.1 导向词 36
6.2.2 网页评级 36
6.2.3 权威网页和中心网页 37
6.3 小节 38
结束语 39
参考文献 40
致谢 41
外文资料原文 42
外文原文翻译 48

第1章基于Lucene的索引与搜索

1.1 什么是全文检索与全文检索系统？

全文检索是指计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。

全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引，检索时将词分解为字的组合。对于各种不同的语言而言，字有不同的含义，比如英文中字与词实际上是合一的，而中文中字与词有很大分别。按词检索指对文章中的词，即语义单位建立索引，检索时按词检索，并且可以处理同义项等。英文等西方文字由于按照空白切分词，因此实现上与按字处理类似，添加同义处理也很容易。中文等东方文字则需要切分字词，以达到按词索引的目的，关于这方面的问题，是当前全文检索技术尤其是中文全文检索技术中的难点，在此不做详述。

全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说，全文检索需要具备建立索引和提供查询的基本功能，此外现代的全文检索系统还需要具有方便的用户接口、面向WWW的开发接口、二次应用开发接口等等。功能上，全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等等功能，外围则由各种不同应用具有的功能组成。结构上，全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等，加上各种外围应用系统等等共同构成了全文检索系统。下图展示了上述全文检索系统的结构与功能。

图4-1全文检索系统结构

在4-1图中，我们看到：全文检索系统中最为关键的部分是全文检索引擎，各种应用程序都需要建立在这个引擎之上。一个全文检索应用的优异程度，根本上由全文检索引擎来决定。因此提升全文检索引擎的效率即是我们提升全文检索应用的根本。另一个方面，一个优异的全文检索引擎，在做到效率优化的同时，还需要具有开放的体系结构，以方便程序员对整个系统进行优化改造，或者是添加原有系统没有的功能。比如在当今多语言处理的环境下，有时需要给全文检索系统添加处理某种语言或者文本格式的功能，比如在英文系统中添加中文处理功能，在纯文本系统中添加XML或者HTML格式的文本处理功能，系统的开放性和扩充性就十分的重要。

1.2 什么是Lucene全文检索

Lucene是apache软件基金会jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

1.3 Lucene的系统结构分析

1.3.1 系统结构组织

Lucene作为一个优秀的全文检索引擎，其系统结构具有强烈的面向对象特征。首先是定义了一个与平台无关的索引文件格式，其次通过抽象将系统的核心组成部分设计为抽象类，具体的平台实现部分设计为抽象类的实现，此外与具体平台相关的部分比如文件存储也封装为类，经过层层的面向对象式的处理，最终达成了一个低耦合高效率，容易二次开发的检索引擎系统。

以下将讨论Lucene系统的结构组织，并给出系统结构与源码组织图：

图4-2全文检索系统结构

从图4-2中我们清楚的看到，Lucene的系统由基础结构封装、索引核心、对外接口三大部分组成。其中直接操作索引文件的索引核心又是系统的重点。Lucene的将所有源码分为了7个模块（在java语言中以包即package来表示），各个模块所属的系统部分也如图4-2所示。需要说明的是org.apache.lucene.queryPaser是做为org.apache.lucene.search的语法解析器存在，不被系统之外实际调用，因此这里没有当作对外接口看待，而是将之独立出来。

从面象对象的观点来考察，Lucene应用了最基本的一条程序设计准则：引入额外的抽象层以降低耦合性。首先，引入对索引文件的操作org.apache.lucene.store的封装，然后将索引部分的实现建立在（org.apache.lucene.index）其之上，完成对索引核心的抽象。在索引核心的基础上开始设计对外的接口org.apache.lucene.search与org.apache.lucene.analysis。在每一个局部细节上，比如某些常用的数据结构与算法上，Lucene也充分的应用了这一条准则。在高度的面向对象理论的支撑下，使得Lucene的实现容易理解，易于扩展。

Lucene在系统结构上的另一个特点表现为其引入了传统的客户端服务器结构以外的的应用结构。Lucene可以作为一个运行库被包含进入应用本身中去，而不是做为一个单独的索引服务器存在。这自然和Lucene开放源代码的特征分不开，但是也体现了Lucene在编写上的本来意图：提供一个全文索引引擎的架构，而不是实现。

1.3.2 数据流分析

理解Lucene系统结构的另一个方式是去探讨其中数据流的走向，并以此摸清楚Lucene系统内部的调用时序。在此基础上，我们能够更加深入的理解Lucene的系统结构组织，以方便以后在Lucene系统上的开发工作。这部分的分析，是深入Lucene系统的钥匙，也是进行重写的基础。

我们来看看在Lucene系统中的主要的数据流以及它们之间的关系图：

图4-3数据流图

图4-3很好的表明了Lucene在内部的数据流组织情况，并且沿着数据流的方向我们也可以对与Lucene内部的执行时序有一个清楚的了解。现在将图中的涉及到的流的类型与各个逻辑对应系统的相关部分的关系说明一下。

图4-3共存在4种数据流，分别是文本流、token流、字节流与查询语句对象流。文本流表示了对于索引目标和交互控制的抽象，即用文本流表示了将要索引的文件，用文本流向用户输出信息；在实际的实现中，Lucene中的文本流采用了UCS-2[19]作为编码，以达到适应多种语言文字的处理的目的。Token流是Lucene内部所使用的概念，是对传统文字中的词的概念的抽象，也是Lucene在建立索引时直接处理的最小单位；简单的讲Token就是一个词和所在域值的组合，后面在叙述文件格式时也将继续涉及到token，这里不详细展开。字节流则是对文件抽象的直接操作的体现，通过固定长度的字节（Lucene定义为8比特位长，后面文件格式将详细叙述）流的处理，将文件操作解脱出来，也做到了与平台文件系统的无关性。查询语句对象流则是仅仅在查询语句解析时用到的概念，它对查询语句抽象，通过类的继承结构反映查询语句的结构，将之传送到查找逻辑来进行查找的操作。

图4-3的涉及到了多种逻辑，基本上直接对应于系统某一模块，但是也有跨模块调用的问题发生，这是因为Lucene的重用程度非常好，因此很多实现直接调用了以前的工作成果，这在某种程度上其实是加强了模块耦合性，但是也是为了避免系统的过于庞大和不必要的重复设计的一种折衷体现。词法分析逻辑对应于org.apache.lucene.analysis部分。查询语句语法分析逻辑对应于org.apache.lucene.queryParser部分，并且调用了org.apache.lucene.analysis的代码。查询结束之后向评分排序逻辑输出token流，继而由评分排序逻辑处理之后给出文本流的结果，这一部分的实现也包含在了org.apache.lucene.search中。索引构建逻辑对应于org.apache.lucene.index部分。索引查找逻辑则主要是org.apache.lucene.search，但是也大量的使用了org.apache.lucene.index部分的代码和接口定义。存储抽象对应于org.apache.lucene.store。没有提到的模块则是做为系统公共基础设施存在。

1.4 Lucene索引构建逻辑模块分析

1.4.1 绪论

这一个部分将分析Lucene中的索引构建逻辑模块。它与前面介绍的存储抽象一起构成了Lucene的索引核心部分。无论是对外接口中的查询，还是分析各种文本以进一步生成索引，都需要直接调用这部分来获得对索引文件的访问能力，因此，这部分在系统中至关重要。构建一个高效的、易使用的索引构建逻辑，即是Lucene在这一部分需要达到的目的。

从面向对象的经典思考方式出发来看，我们只需要使用继承体系，通过这个继承体系来控制索引文件的结构，然后设计合适的永久化方法，以及接受分析token流的操作，即可将索引构建逻辑完成。原理上就是这样的简单。由于两个关键的概念document和field都已经在org.apache.lucene.document中当作基础类定义过了，因此实际上Lucene在这部分需要完善的概念结构还有segment和term。在此基础上继续编写各个逻辑结构的永久化方法，然后提供一个进入的接口方法，即是宣告完成了这个过程。其中永久化的部分，Lucene使用了另外实现一个代理类的方式来实现，即对于某个类X，存在XWriter类和XReader类来负责写出和读入的功能；用作永久化功能的类是被永久化的类的友元。

在接下来的分析过程中，我们按照这样一个思路，以UML图和对象体系的描述来叙述这部分的设计和实现，然后通过内部的数据流理清楚调用时序。

1.4.2 对象体系与UML图

1.项（Term）

图UML4-3

这部分主要是分析针对项（Term）这个概念所做的设计，包括概念所实际涉及的类、永久化类。项（Term）所表示的是一个字符串，它拥有域、频数和位置信息等等属性。因此，Lucene中设计了两个类来表示这个概念，如图4-3

在4-3图中，有意的突出了类Term和TermInfo中的数据成员，因为它反映了对于项（Term）这个概念的具体表示。同时上图中也同时列出了用于永久化项（Term）的代理类TermInfosWriter和TermInfosReader，它们完成永久化的功能，需要注意的是，TermInfosReader内部使用了数组indexTerms和indexInfos来存储一系列项；而TermInfosWriter则是一个类似于链表的结构，通过一个other指向下一个TermInfosWriter，每一个TermInfosWriter只负责本身那个lastTerm和lastTi的永久化工作。这是一个设计上的技巧，通过批量读取（或者称为缓冲的方式）来获得读入时候的效率优化；而通过一个链表式的、各负其责的方式，来获得写出时候的设计简化。

结束语

本课题对基于因特网的Java搜索引擎结构和性能指标进行了分析，了解Spider程序的结构和功能。在进行海量数据搜索时，如果使用单纯的数据库技术，那将是非常痛苦的，速度将是极大的瓶颈。所以本文提出了使用全文搜索引擎Lucene进行索引、搜索。解决中文分词和有效的中文搜索信息。同时解决了如何把Lucene全文搜索引擎和Spider程序互相集合来实现新闻搜索的功能。对于如何构架基于Tomcat的Web服务器，使得用户通过浏览器进行新闻的搜索有了一定的理解，对Tomcat如何部署进行了说明。

在些基础上，终于可以调试出一个简单的在本地搜索新闻Java搜索引擎。

参考文献

[1] Jeff Heaton(美), Programming Spiders, Bots, and Aggregator in Java.

[2] Borland Software Corporation（美）,JBuilder 培训教程（译者：周鹏 [等] 译）北京：机械工业出版社

[3]徐宝文，张卫丰. 搜索引擎与信息获取技术.北京：清华大学出版社,2003.5

[4]车东.基于Java的全文搜索引擎Lucene

[5]罗旭.主题搜索引擎的设计与实现

[6]Bruce Eckel(美).Thinking in Java.北京：机械工业出版社

[7] Otis Gospodnetic Erik Hatcher (美).Action in Lucene.电子工业出版社,2007.1

[8]耿祥义,张跃平. JAVA2实用教程(第二版).北京:清华大学出版社，2004.2

[9]刘彬.JSP数据库高级教程.北京：清华大学出版社，2006.3

[10]刘卫国,严晖.数据库技术与应用——SQL Server.北京:清华大学出版社,2007.1