网站导航网学 原创论文 网站设计 最新系统 最新研究 原创论文 获取论文 论文降重 发表论文 论文发表 UI设计定制 论文答辩PPT格式排版 期刊发表 论文专题
返回网学首页
网学原创论文
最新论文 推荐专题 热门论文 论文专题
当前位置: 网学 > 设计下载 > 其他类别 > 正文

搜索引擎专业网络爬虫设计

来源:http://myeducs.cn 联系QQ:点击这里给我发消息 作者: 用户投稿 来源: 网络 发布时间: 13/05/07

文章导读:在新的一年中,各位网友都进入紧张的学习或是工作阶段。网学的各位小编整理了其他类别-搜索引擎专业网络爬虫设计的相关内容供大家参考,祝大家在新的一年里工作和学习顺利!

QQ交谈客服咨询,网学网竭诚为您服务,本站永久域名:myeducs.cn

2.2.2 网络爬虫工作原理
     网络爬虫的工作流程大概可以归纳成以下几个步骤:
1. 程序从几个初始的url开始,它们相当于图遍历的出发顶点,这个url通常被称为seed或root,它们首先被放到url对列中等待处理。
2. 将待处理的url按一定策略分配给下载线程。
3. 下载线程根据http等协议采集网页。
4. 提取网页链接,按一定策略过滤后,将新的url加入到url队列中等待处理。然后重复这4个步骤,直到url队列为空为止.
3.3.3 构造Spider程序
    本论文设计的基础是BOT包,在该包中提供了最基本的对Internet访问的类。在该包的基础上,我对源代码进行改进。由于Java具有良好的跨平台性,我的专用网络爬虫也能在多种支持Java虚拟机的平台上运行,如Windows, Linux, Unix等。
    在构造Spider程序之前我先了解下程序的各个部分是如何共同工作的,以及如何对这个程序进行扩展[8]。
3.3.4 URL筛选策略
    因为本设计要实现的是对专门电子商务网站的信息的下载,所以,对于出现在该电子商务网站上面的所有内部链接(InternalLink)都要做处理,但是,一般的电子商务网站也会有其他网站的链接,称为外部链接(ExternalLink)。对于外部链接,本设计的网络爬虫将不做任何处理。
 

本站发布的计算机毕业设计均是完整无错的全套作品,包含开题报告+程序+论文+源代码+翻译+答辩稿PPT

本文选自计算机毕业设计http://myeducs.cn
论文文章部分只是部分简介,如需了解更多详情请咨询本站客服!QQ交谈QQ3710167

原创论文

设为首页 | 加入收藏 | 论文首页 |原创论文 |
版权所有 QQ:3710167 邮箱:3710167@qq.com 网学网 [Myeducs.cn] 您电脑的分辨率是 像素
Copyright 2008-2020 myeducs.Cn www.myeducs.Cn All Rights Reserved 湘ICP备09003080号 常年法律顾问:王律师