网学网为需要工科论文的朋友们搜集整理了 基于语义Web的搜索引擎研究 相关资料,希望对各位网友有所帮助!
1. XML 是 eXtensible Markup Language 的缩写,是由万维网联盟( World Wide Web Consortium,W3C) 定义的一种语言,译为可扩展标记语言。XML 是 SGML 的一个子集,设计它的目的是便于在 Internet 上进行数据交换。它有如下优点: ( 1) 具有可扩展性。用户可以使用 XML 根据自己的特殊需要制定出适用于自身的一套标记和文法结构,以便于结构化地描述自己领域的信息,从而提供一种处理数据的最佳方式。 ( 2) 具有一种数据多种显示的功能。XML 将信息的数据部分和信息的样式显示部分进行了区分。在一个 XML 文档中,只保存表示信息的数据,并不决定这些数据的显示样式,数据的样式显示部分是由其他语言来解决的,这样就可以给同一份数据添加多种样式,从而得到多种显示效果。 ( 3) 实现数据的分布式处理。XML 是一种针对 Internet 而设计的标记语言,一个保存有 XML 数据的文档可以在 Internet 上自由传送。由服务器传递过来的 XML 数据文档的处理可以在客户端完成,而没有必要回到 WWW 服务器上,从而降低了服务器的负担,优化了服务器的性能。 ( 4) 实现不同数据源之间的数据交换。XML 是以文本形式来描述的一种文本格式,因此具有跨平台吴根斌等: 基于语义 Web 的搜索引擎研究 131 的能力。
2RDF RDF 是 W3C 组织提出的基于可扩展标记语言 ( XML) 的一种元数据描述框架,它主要是为了描述 Web 资源的元数据,如标题、作者、修改网页的日期、版权和 Web 文档的许可信息。RDF 定义了一个简单的数据模型,通过属性( Property) 和值( Value) 来描述资源以及资源和资源之间的关系。在资源描述框架模型中,如果将资源描述模型的属性看作资源的属性,则资源描述框架模型可以看做属性-值对模型。 RDF 所描述的信息和知识可以被计算机理解,使得计算机能够灵活方便地自动处理 Web 资源。Ontology Ontology 即本体。Studer 等人对本体定义进行深入的研究后,认为本体是“共享概念模型的明确的形式化规范说明”。这个定义包含4 层含义: 概念模型、明确、形式化和共享。概念模型是指通过抽象客观世界中的现象的相关概念而得到的模型; 明确概念和概念的约束都有明确的和无歧义的定义; 形式化是本体能通过本体语言,使得计算机可读,并可以被计算机处理; 共享是本体体现的共同认可的知识,反映的是相关领域内公认的概念集。
3 基于语义 Web 的搜索引擎设计本系统在传统搜索引擎的基础上构建了本体知识库,增加了本体推理模块。系统的体系结构如图 3 所示。当用户发送查询请求时,分词程序首先对查询字符串进行中文分词处理得到关键字,再把关键字提交给本体推理模块。本体推理模块在已经建好的本体知识库的基础上对关键字进行语义分析,然后将分析后的结果连同关键字一起传递给传统搜索引擎,继续进行基于关键字的查询和匹配,返回最终结果。图 3 语义搜索原型系统的体系结构
3. 1 建立本体知识库目前比较流行的领域本体的构建方法主要有以下几种: 骨架法、企业模型法、七步法等。本知识库主要采用斯坦福大学开发的七步法构建本体。本系统通过本体编辑工具 Protégé 建立了一个示范性的本体: 牧场。“牧场”本体中的类包括: 放牧人、动物、羊、狗、牧羊犬。其中羊、狗、牧羊犬是动物的子类,牧羊犬和狗之间是等价关系。牧场本体的类层次关系如图 4 所示。图 4 牧场本体的类层次结构
3. 2 本体推理模块本体推理模块是实现语义分析功能的关键。本体推理模块的设计是基于这样的思路: 当用户提交查询字符串之后,系统通过分词程序处理查询字符串生成一个或多个关键字。再用生成的关键字进行概念推理,找出相关概念( 如等价词、子概念) 。最后把关键字以及推理之后得到的相关概念作为输入提交给系统。符合用户要求的搜索结果,除了包括匹配关键字的信息外,还包括以这些相关概念作为关键字的搜索结果。假设用户输入“动物”,分词程序处理之后得到关键字“动物”。本体推理模块把“动物”看作一个概念,然后对本体知识库进行推理,得到子概念“羊”、 “狗”、“牧羊犬”。那么以这些子概念为关键字的查询结果也应该认为是符合用户需求的结果。再如用户输入“狗”,得到的查询结果不仅包括与“狗”相关的信息,还包括以关键字为“牧羊犬”的查询结果。 搜索模块搜索模块的主要功能是调用传统搜索引擎的搜索接口,根据接收的关键字进行搜索,并对搜索结果排序,返回给用户接口。对搜索结果进行排序采用 “向量空间模型”( Vector Space Model) ,它是由 Salton 在 1975 年的 Communications of the ACM 上提出的,是一种计算事物之间相似度的通用方法。