鉴于大家对工科论文十分关注,我们编辑小组在此为大家搜集整理了“ 主题爬虫搜索策略的研究 ”一文,供大家参考学习
1.搜索引擎与垂直搜索引擎信息检索是从结构化的文档集中找出与用户需求相关的信息,与数据库系统不同,信息检索研究的主要不是结构数据的查询和事务处理的问题,而是研究大量文本文档的信息组织和检索。搜索引擎起源于传统的信息全文检索理论,是信息检索技术在互联网上的具体应用。它将互联网海量的信息抓取、存储整理、建立索引,然后提供友好接口让用户可以在这些信息中及时、准确、快速地找到需要的信息。通常指的是基于网站目录的搜索服务或是特定网站的搜索服务。搜索引擎对用户查询的返回结果一般都是按某种顺序进行排序,不同的搜索引擎实现的技术不同,排序方式也不同。
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。其特点是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。可以简单地把垂直搜索引擎说成是搜索引擎领域的行业化分工,它为用户提供的并不是上百甚至上千万相关网页,而是数量相对较少且极具针对性的信息。垂直搜索引擎和通用搜索引擎所采用的基本技术非常相似,主要区别是垂直搜索引擎只搜索特定的主题信息,并按照预先已定义好的专题有选择地收集相关的网页,这样大大降低了收集信息的难度,提高了信息的质量。
2.网络爬虫简述网络爬虫(Crawler)是搜索引擎中最核心的部分,它直接面向互联网,是搜索引擎的数据来源,决定着整个系统的内容是否丰富、信息能否得到及时更新。从搜索引擎整个产业链来看,网络爬虫是处于最上游的产业,其性能好坏直接影响着搜索引擎整体性能和处理速度。网络爬虫是一个自动提取网页的程序,为搜索引擎从网上下载网页。通用搜索引擎使用传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
通用爬虫和主题爬虫工作流程对比图垂直搜索引擎在网页采集技术上使用主题爬虫,它与传统爬虫有着很大的不同。主题爬虫的算法及工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列,然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页的URL,并重复上述过程,直到达到系统的某一特定条件时停止。传统爬虫和主题爬虫的工作流程对比如图1。另外,爬虫抓取的网页将会被存储,进行一定的分析、过滤,并建立索引,以便以后的查询和检索;对于主题爬虫来说,这一过程所得到的分析结果还会对以后的抓取过程给出反馈和指导。
3.主题爬虫的搜索策略最简单实用的搜索策略是深度优先搜索策略和广度优先搜索策略,这两种策略将网络上的所有网页看作节点,超链看作节点之间的链接,这样整个网络构成了一个庞大而复杂的有向图,根据图论里的基本方法,对节点采取深度优先或者广度优先的遍历策略。如果将传统爬虫的爬行策略直接用于主题爬虫会下载大量与主题无关的网页,使得爬虫的性能下降。目前主题爬虫的爬行策略主要有基于内容评价的搜索策略和基于链接关系的搜索策略。
3.1基于内容评价的搜索策略基于内容评价的主题爬虫,以传统信息检索模型向量空间模型为基础,利用页面中的文本信息作为领域知识指导搜索,即用W eb网页文本内容、URL、锚文本和锚文本的上下文等文字内容信息来评价链接价值的高低,并以此决定其搜索策略。这类的搜索算法主要有BestFirstSearch,Fish-Search[6]和Shark-Search[7]等。基于内容评价的算法只是利用页面、URL、锚文本等文字信息,没有考虑到通过超链接的关系所形成的W eb有向图对主题爬虫的影响,这类爬虫在主题相关网页附近爬行时表现出较好的性能,但当离主题社区较远时容易迷失爬行方向。W eb是超文本的文档集合,网页之间相互关系并形成一定的链接结构。W eb数据挖掘等研究都需要对web的链接结构进行分析和研究。
3.2基于链接关系的搜索策略基于链接关系的搜索策略,是通过对W eb页面之间相互引用关系的分析来确定链接的重要性,进而决定链接访问顺序的方法。通常认为有较多入链或出链的页面具有较高的价值。这类搜索策略最大的问题是容易发生“主题漂移”。PageRank算法和H ITS算法是此类搜索策略的代表。PageRank算法是基于用户随机的向前浏览网页的直觉知识。