搜索引擎专业网络爬虫设计

作者：用户投稿来源：网络发布时间： 13/05/07

文章导读：在新的一年中，各位网友都进入紧张的学习或是工作阶段。网学的各位小编整理了其他类别-搜索引擎专业网络爬虫设计的相关内容供大家参考，祝大家在新的一年里工作和学习顺利！

客服咨询，网学网竭诚为您服务，本站永久域名：myeducs.cn

2.2.2 网络爬虫工作原理
     网络爬虫的工作流程大概可以归纳成以下几个步骤：
1. 程序从几个初始的url开始，它们相当于图遍历的出发顶点，这个url通常被称为seed或root，它们首先被放到url对列中等待处理。
2. 将待处理的url按一定策略分配给下载线程。
3. 下载线程根据http等协议采集网页。
4. 提取网页链接，按一定策略过滤后，将新的url加入到url队列中等待处理。然后重复这4个步骤，直到url队列为空为止.
3.3.3 构造Spider程序
    本论文设计的基础是BOT包，在该包中提供了最基本的对Internet访问的类。在该包的基础上，我对源代码进行改进。由于Java具有良好的跨平台性，我的专用网络爬虫也能在多种支持Java虚拟机的平台上运行，如Windows， Linux， Unix等。
    在构造Spider程序之前我先了解下程序的各个部分是如何共同工作的，以及如何对这个程序进行扩展[8]。
3.3.4 URL筛选策略
    因为本设计要实现的是对专门电子商务网站的信息的下载，所以，对于出现在该电子商务网站上面的所有内部链接（InternalLink）都要做处理，但是，一般的电子商务网站也会有其他网站的链接，称为外部链接（ExternalLink）。对于外部链接，本设计的网络爬虫将不做任何处理。

本站发布的计算机毕业设计均是完整无错的全套作品，包含开题报告+程序+论文+源代码+翻译+答辩稿PPT

本文选自计算机毕业设计http://myeducs.cn
论文文章部分只是部分简介，如需了解更多详情请咨询本站客服！ QQ交谈 QQ3710167