目 录
文摘
英文文摘
论文说明:图表目录
声明
第一章绪论
§1.1问题提出的背景及意义
§1.2国内外研究现状
1.2.1元搜索引擎
1.2.2信息抽取
§1.3本文主要工作
§1.4论文结构
第二章新闻信息采集系统的设计
§2.1系统框架结构
2.1.1浏览器/服务器(B/S)模式
2.1.2系统架构
§2.2系统模块设计
2.2.1信息规整模块
2.2.2链接独立搜索引擎模块
2.2.3结果抽取模块
2.2.4正文文本抽取模块
2.2.5去重排序模块
2.2.6结果展示模块
§2.3系统工作原理及数据流程
2.3.1工作原理
2.3.2数据流程
§2.4本章小结
第三章 元搜索引擎子系统关键技术的实现
§3.1与搜索源的链接
§3.2网页解析
3.2.1页面结构
3.2.2正则表达式解析页面
3.2.3各独立搜索引擎检索结果页面的解析过程及步骤
§3.3检索信息的去重优化及重排序
3.3.1各独立搜索引擎检索结果重复判断
3.3.2各独立搜索引擎新闻检索结果排序与去重
§3.4基于多线程技术的并行搜索
3.4.1多线程创建
3.4.2线程调度
3.4.3线程同步
3.4.4总结
§3.5系统性能评价
3.5.1覆盖范围
3.5.2查准率
3.5.3检索时间
§3.6本章小结
第四章 信息抽取子系统关键技术的实现
§4.1信息抽取
§4.2网页结构分析与数据预处理
4.2.1网页结构分析
4.2.2数据预处理
§4.3正文抽取
4.3.1网页信息表示
4.3.2基于贝叶斯理论的新闻正文抽取方法
4.3.3正文抽取过程
§4.4实验与结果分析
§4.5本章小结
第五章总结与展望
§5.1本文总结
§5.2工作展望
致 谢
参考文献
附录