目 录
文摘
英文文摘
声明
1 绪论
1.1 研究的背景与意义
1.2搜索引擎概述
1.2.1综合搜索引擎及其工作原理
1.2.2垂直搜索引擎
1.2.3综合搜索引擎和垂直搜索引擎的比较
1.3 国内外发展状况
1.3.1国外研究情况
1.3.2国内研究情况
1.4本文的主要工作与组织结构
1.5本章小结
2相关技术
2.1 主题页面在Web上的分布特征
2.2主题搜索策略
2.2.1 基于内容评价的搜索策略
2.2.2基于Web图的搜索策略
2.2.3结合网页内容评价和Web图的搜索策略
2.3 网页信息的结构和抽取方式
2.4 Lucene开源工具包
2.5 本章小结
3 基于主题词库的垂直搜索引擎系统分析
3.1 系统建设目标和原则
3.1.1系统建设目标
3.1.2系统建设原则
3.2垂直搜索引擎总体架构
3.3垂直搜索引擎体系结构
3.4系统功能性需求分析
3.4.1网络蜘蛛模块
3.4.2分词器模块
3.4.3主题过滤模块
3.4.4索引器模块
3.4.5检索模块
3.5本章小结
4基于主题词库的垂直搜索引擎系统设计
4.1 概要设计和系统架构设计
4.2网络蜘蛛设计技术难点
4.3 网络蜘蛛模块的设计
4.3.1 URL管理器模块的设计
4.3.2 爬取网页方法的设计
4.3.3页面器抓取模块的设计
4.3.4 HTML解析模块的设计
4.4主题词库的设计
4.5主题过滤模块的设计
4.6中文分词模块的设计与优化
4.6.1 中文分词技术基本算法
4.6.2中文分词模块的设计和优化
4.7索引模块的设计
4.8系统主要实体类的设计
4.9本章小结
5基于主题词库的垂直搜索引擎系统实现
5.1系统运行环境
5.2网络蜘蛛模块的实现
5.3 中文分词模块的实现
5.4索引模块的实现
5.5检索模块的实现
5.6本章小结
结 论
参考文献
致 谢