2.2.2 网络爬虫工作原理 网络爬虫的工作流程大概可以归纳成以下几个步骤: 1. 程序从几个初始的url开始,它们相当于图遍历的出发顶点,这个url通常被称为seed或root,它们首先被放到url对列中等待处理。 2. 将待处理的url按一定策略分配给下载线程。 3. 下载线程根据http等协议采集网页。 4. 提取网页链接,按一定策略过滤后,将新的url加入到url队列中等待处理。然后重复这4个步骤,直到url队列为空为止. 3.3.3 构造Spider程序 本论文设计的基础是BOT包,在该包中提供了最基本的对Internet访问的类。在该包的基础上,我对源代码进行改进。由于Java具有良好的跨平台性,我的专用网络爬虫也能在多种支持Java虚拟机的平台上运行,如Windows, Linux, Unix等。 在构造Spider程序之前我先了解下程序的各个部分是如何共同工作的,以及如何对这个程序进行扩展[8]。 3.3.4 URL筛选策略 因为本设计要实现的是对专门电子商务网站的信息的下载,所以,对于出现在该电子商务网站上面的所有内部链接(InternalLink)都要做处理,但是,一般的电子商务网站也会有其他网站的链接,称为外部链接(ExternalLink)。对于外部链接,本设计的网络爬虫将不做任何处理。 |