目 录
文摘
英文文摘
论文说明:图表目录
声明
第1章绪论
1.1课题研究背景
1.2国内外研究现状
1.2.1网页分类研究现状
1.2.2搜索策略研究现状
1.3 Weka平台
1.4本文所做的工作
第2章聚焦爬虫的架构及关键技术
2.1引言
2.2通用爬虫
2.2.1通用爬虫模型
2.2.2通用爬虫的不足
2.3聚焦爬虫原理及架构
2.4聚焦爬虫关键技术
2.5小结
第3章常用网页分类算法
3.1引言
3.2文本分类算法
3.2.1 Naive Bayes算法
3.2.2 TF-IDF算法
3.2.3 KNN算法
3.2.4支持向量机
3.3网页分类模型
3.3.1利用网页信息的规则
3.3.2网页分类模型
3.3.3加权协调的网页分类
3.4小结
第4章基于增量学习的网页识别算法
4.1引言
4.2博客网页
4.2.1 HTML特征
4.2.2 URL特征
4.2.3 文本特征
4.2.4视觉特征
4.3基于增量学习的主题网页识别算法
4.3.1 增量学习
4.3.2主题网页识别算法
4.4性能分析
4.4.1 软件平台
4.4.2评价指标
4.4.3 实验结果
4.5小结
第5章基于多元信息加权协调的搜索策略
5.1引言
5.2相关工作
5.2.1 OPIC算法
5.2.2 C4.5决策树算法
5.3传统搜索策略
5.3.1重要度优先的搜索策略
5.3.2相关度优先的搜索策略
5.4基于多元信息加权协调的搜索策略
5.5实验及分析
5.6小结
第6章聚焦爬虫IL-Crawler实现
6.1引言
6.1.1 Cora
6.1.2 IBM Focused Crawler
6.2 IL-Crawler开发环境及其架构
6.2.1 IL-Crawler开发环境
6.2.2 IL-Crawler架构
6.3 IL-Crawler建模
6.3.1采集训练数据集
6.3.2训练集建模
6.4 IL-Crawler采集实验
6.5小结
结论
参考文献
致 谢
附录