以下是网学网为您推荐的ASP.NET类别-基于WEB设计的搜索引擎系统,希望本篇文章对您学习有所帮助。
客服咨询,网学网竭诚为您服务,本站永久域名:myeducs.cn |
3.3.2 层次凝聚方法 随着计算资源的发展与进步,以及一些聚类分析软件包的实现,使得近几年层次聚类方法在信息检索系统中得到了较为广泛的应用。 层次聚类的方法是对给定数据对象集合进行层次的分解。根据层次的分解如何形成,层次的方法可以分为凝聚的和分裂的。凝聚的方法属于合并法,也称自底向上法,开始将每个对象作为单独的一个簇类,然后相继地合并相近的对象或簇类,直到所有的组合并为一个(层次的最上层),或者达到一个终止条件。分裂的方法,也称为自顶向下的方法,一开始将所有的对象置于一个簇类中,在迭代的每一步中,一个簇类被分裂为两个或多个更小的簇类,直到最终每个对象在单独的一个簇类中,或者达到一个终止条件。 2. 聚类搜索引擎设计 从总体结构上讲,本文所设计系统由三层组成:第一层是系统接口层;第二层是信息聚类层,负责文本聚类算法的实现乃至形成最终结果的职责,起着代理与聚类处理承上启下的双重作用;第三层是数据源层,位于服务器端,负责数据获取,是系统与Internet的接口。 4.2索引的建立 索引的建立对于搜索的性能影响重大,本系统采用的建立索引模型为倒排文件模型(Inverted Files List)。倒排文件模型是将文本看成一组单个字符或者一些词的有序串联[20],是面向单个字符或词的思想。倒排表方法直观,创建效率高,维护相对容易,所以本系统使用倒排表模型来抽取关键短语。 在一些全文检索系统中也以倒排表作为索引模型。倒排表是一些二元组的集合,它的第一个元素是索引项,基于词的特征表示中,索引项指的是词,第二个元素是该索引项在文本集中出现的所有位置,因此从倒排表可以很快得到每个索引项在文本集中出现的所有位置。倒排表空间开销与索引项和位置的定义密切相关。 |
本站发布的计算机毕业设计均是完整无错的全套作品,包含开题报告+程序+论文+源代码+翻译+答辩稿PPT |
本文选自计算机毕业设计http://myeducs.cn |