鉴于大家对计算机其他语言十分关注,我们编辑小组在此为大家搜集整理了“基于DOM的Web分析程序实现”一文,供大家参考学习
客服咨询,网学网竭诚为您服务,本站永久域名:myeducs.cn |
1.3 本课题的研究背景和意义 信息抽取技术最早是由G.Wiederhold在《Dediators in the Architecture of Future Information Systems》[4]一文中提出的,在随后的几年里,人们研究出了许多基于信息抽取技术的异构信息集成系统,根据这些原型系统所采用的信息抽取原理和方式,将这些原型系统所使用的信息抽取器划分为3类: 1)手工构造信息抽取器:例如,TSIMMIS[5]和ARANEUS。这些系统需要用户通过手工书写构造包装器。 2)机器学习方式的信息抽取器:例如,Road-Runner[6],Wrapper Induction。这些系统使用前需要对系统进行大量的样本训练。 3)可视化、交互式的信息抽取器:例如,Lixto,W4F等。这些系统要求用户在系统的提示下手工书写部分抽取规则。 手工方式构造抽取器的原理比较简单,但需要维护人员为不同信息源编写不同的抽取器,要求维护人员具有较高的专业知识,而且手工编制的抽取器缺乏对网页结构的适应性,需要针对信息源结构的变化不断更新;机器学习方式的信息抽取采用自动抽取的方式,智能化程度较高,在一定程度上方便了用户的使用,但适应范围较窄,抽取规则的表达能力有限,使用前需要对系统进行大量的样本训练;可视化、交互式的信息抽取器定义了各自的信息抽取语言,通过可视化的人机交互接口生成抽取规则,但是目前还没有统一的抽取语言标准,而且这些抽取语言对半结构化数据的描述能力较差。所以一种优秀的信息抽取技术应该具有如下特点:myeducs.cn 1)信息抽取工具简单易学。对大多数不具备特殊专业知识和编程知识的普通用户,在信息抽取工具的帮助下能够构造包装器,实现对信息源的包装。 2)能够产生抽取规则。而这些抽取规则能够覆盖有相似网页结构的信息源,信息抽取的准确率和召回率较高。
4.1基于DOM树结构的技术 构成网页的HTML的标签具有可嵌套性,不同于普通无结构的文本,一个网页中所有标签组成的DOM模型通常呈现树状结构。在web信息抽取中可以在网页默认的树结构的基础上通过一些常见的针对树的操作,从而总结归纳出待抽取部分的特征。基于DOM树结构的技术克服了对网页数据源的限制,可以用来处理各种类型的单正文体和多正文体页面,其操作过程相对于基于视觉的方法更加易于实现。在基于DOM树结构的抽取技术领域有许多成型的系统和经典算法,使其成为Web信息抽取技术中发展极为迅速的一个分支。 |
本站发布的计算机毕业设计均是完整无错的全套作品,包含开题报告+程序+论文+源代码+翻译+答辩稿PPT |
本文选自计算机毕业设计http://myeducs.cn |