网站导航免费论文 原创论文 论文搜索 原创论文 网学软件 学术大家 资料中心 会员中心 问题解答 原创论文 大学论文导航 设计下载 最新论文 下载排行 原创论文
返回网学首页
网学联系
最新论文 推荐专题 热门论文 素材专题
当前位置: 网学 > 论文模板 > 计算机论文 > 正文

面向主题的网络爬虫设计与实现

来源:http://myeducs.cn 联系QQ:点击这里给我发消息 作者: 用户投稿 发布时间: 10/01/08

  目 录

  文摘

  英文文摘

  论文说明:图表目录

  声明

  第1章绪论

  1.1课题研究背景

  1.2国内外研究现状

  1.2.1网页分类研究现状

  1.2.2搜索策略研究现状

  1.3 Weka平台

  1.4本文所做的工作

  第2章聚焦爬虫的架构及关键技术

  2.1引言

  2.2通用爬虫

  2.2.1通用爬虫模型

  2.2.2通用爬虫的不足

  2.3聚焦爬虫原理及架构

  2.4聚焦爬虫关键技术

  2.5小结

  第3章常用网页分类算法

  3.1引言

  3.2文本分类算法

  3.2.1 Naive Bayes算法

  3.2.2 TF-IDF算法

  3.2.3 KNN算法

  3.2.4支持向量机

  3.3网页分类模型

  3.3.1利用网页信息的规则

  3.3.2网页分类模型

  3.3.3加权协调的网页分类

  3.4小结

  第4章基于增量学习的网页识别算法

  4.1引言

  4.2博客网页

  4.2.1 HTML特征

  4.2.2 URL特征

  4.2.3 文本特征

  4.2.4视觉特征

  4.3基于增量学习的主题网页识别算法

  4.3.1 增量学习

  4.3.2主题网页识别算法

  4.4性能分析

  4.4.1 软件平台

  4.4.2评价指标

  4.4.3 实验结果

  4.5小结

  第5章基于多元信息加权协调的搜索策略

  5.1引言

  5.2相关工作

  5.2.1 OPIC算法

  5.2.2 C4.5决策树算法

  5.3传统搜索策略

  5.3.1重要度优先的搜索策略

  5.3.2相关度优先的搜索策略

  5.4基于多元信息加权协调的搜索策略

  5.5实验及分析

  5.6小结

  第6章聚焦爬虫IL-Crawler实现

  6.1引言

  6.1.1 Cora

  6.1.2 IBM Focused Crawler

  6.2 IL-Crawler开发环境及其架构

  6.2.1 IL-Crawler开发环境

  6.2.2 IL-Crawler架构

  6.3 IL-Crawler建模

  6.3.1采集训练数据集

  6.3.2训练集建模

  6.4 IL-Crawler采集实验

  6.5小结

  结论

  参考文献

  致 谢

  附录

网学推荐

免费论文

原创论文

设为首页 | 加入收藏 | 论文首页 |原创论文 | 论文专题 | 设计下载 | 网学软件 | 程序设计 | 关于网学 | 站内搜索 | 网学留言 | 友情链接 | 资料中心
版权所有 QQ:3710167 邮箱:3710167@qq.com 网学网 [Myeducs.cn] 您电脑的分辨率是 像素
Copyright 2008-2020 myeducs.Cn www.myeducs.Cn All Rights Reserved 湘ICP备09003080号 常年法律顾问:王律师