网站导航网学 原创论文 网站设计 最新系统 最新研究 原创论文 获取论文 论文降重 发表论文 论文发表 UI设计定制 论文答辩PPT格式排版 期刊发表 论文专题
返回网学首页
网学原创论文
最新论文 推荐专题 热门论文 论文专题
当前位置: 网学 > 设计下载 > 其他类别 > 正文

基于独立用户的聚类搜索引擎

来源:http://myeducs.cn 联系QQ:点击这里给我发消息 作者: 用户投稿 来源: 网络 发布时间: 13/05/06

【编者按】网学网其他类别频道为大家收集整理了“基于独立用户的聚类搜索引擎“提供大家参考,希望对大家有所帮助!

QQ交谈客服咨询,网学网竭诚为您服务,本站永久域名:myeducs.cn

 

2. 聚类搜索引擎设计
从总体结构上讲,本文所设计系统由三层组成:第一层是系统接口层;第二层是信息聚类层,负责文本聚类算法的实现乃至形成最终结果的职责,起着代理与聚类处理承上启下的双重作用;第三层是数据源层,位于服务器端,负责数据获取,是系统与Internet的接口。
4.1数据源预处理
考虑硬盘存储、服务器硬件条件等各方面条件限制,本文采用从yahoo获取数据的方式解决处理数据源的问题。
系统通过元搜索引擎的方式获取信息,即将用户提出的查询转交给其它搜索引擎(如google或yahoo),调用Web上现有的搜索引擎,通过对结果的合并和整理来得到检索结果的一种方式。其实现既不需要网络爬虫程序,也不需要使用复杂的检索机制,但元搜索引擎提供了一个可以同时查询多个搜索引擎的统一接口,将各个搜索引擎的位置,接口等细节屏蔽起来。它的特点在于不必对整个网络进行扫描,减小了网络的流量和机器的负荷,同时提高了检索的广度、召回率和精度。该系统通过元搜索引擎原理的运用满足“在线”要求,完成了信息获取的过程。
为了提高信息获取的速度,系统需要以多线程的方式做并行元搜索,即并行地调用多个搜索引擎。因为搜索引擎一般通过动态生成的网页返回搜索结果,然而搜索结果往往很多,必须多个网页来显示。如果系统串行地从一个搜索引擎取回其搜索结果网页,就需要较长的网络通信时间,因此系统就通过多线程并行调用多个搜索引擎来达到更高的并行度,提高系统的运行效率。
由于对同一个查询来说不同的搜索引擎返回的搜索结果列表有所不同,一项结果往往只在某些搜索结果列表中出现,而且往往出现在不同的位置。对于这种情况系统需要将来自各个搜索引擎的搜索结果列表综合起来,先削除里面的重复项,再对其重新排序形成一个统一的搜索结果列表,以提高信息检索的精度(precision)。并将得到的文本数据进行切词处理,利用中文分词算法将这些文本切分为多个词语,优先选择长度较长的文字进行匹配切词。分析标题、摘要,选取最能表现文本特征的词或词对,用以建立对应的索引,其中包括去除表现力不强的词[19]
采用的是基于字符串匹配的分词方法。这种方法又叫做机械分词方法它是按照一定的策略将待分析的汉字串与分词词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况可以分为最大(最长)匹配和最小(最短)匹配,优先选择长度较长的文字进行匹配切词;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。采用的最大逆向单纯分词方法,实验表明:对于汉语来说,该方法是最有效的。
初步分词包括:1)原子切分;2)找出原子之间所有可能的组词方案;
例如:“他说的确实在理”这句话。
(1)原子切分的目的是完成单个汉字的切分。经过原子切分后变成“始##始/他/说/的/确/实/在/理/末##末”。
(2)然后根据“词库字典”找出所有原子之间所有可能的组词方案。经过词库检索后,该句话变为“始##始/他/说/的/的确/确/确实/实/实在/在/在理/末##末”。
4.2索引的建立
索引的建立对于搜索的性能影响重大,本系统采用的建立索引模型为倒排文件模型(Inverted Files List)。倒排文件模型是将文本看成一组单个字符或者一些词的有序串联[20],是面向单个字符或词的思想。倒排表方法直观,创建效率高,维护相对容易,所以本系统使用倒排表模型来抽取关键短语。
在一些全文检索系统中也以倒排表作为索引模型。倒排表是一些二元组的集合,它的第一个元素是索引项,基于词的特征表示中,索引项指的是词,第二个元素是该索引项在文本集中出现的所有位置,因此从倒排表可以很快得到每个索引项在文本集中出现的所有位置。倒排表空间开销与索引项和位置的定义密切相关。
由于在全文检索系统中文本集巨大,倒排表的索引项包括全部汉语词条。清华版的常用词表有13万常用词,专业词表采用《中国分类主题词表》也有6万主题词,如果包括全部的汉语词条系统的空间开销很大,但是索引项可以按照既定的顺序分配地址,在动态使用中,索引项不用再排序。
由于文档集的大小范围变化比较大,小到个数位,最大可达到几十万数量级。因为检索结果和用户的检索条件一一对应,不同的检索条件将可能导致完全不同的检索结果集,所以针对于每一次的检索聚类,都是不同的输入数据集。倒排表既要适应数据集的变化,节省空间开销,又要能迅速地创建,尽可能地实现高效率,还要考虑如何便于抽取关键短语。考虑到以上因素,本系统中的倒排表,索引项为单个词汇或相邻词组,索引项指向的元素对象链表包括有共同索引项的检索结果的类对象中所有内容。
用于建立索引项的关键字或者关键点短语在计算相似度时起决定性作用。文档的关键短语列表用于倒排索引的索引项,只有当文档之间至少有一个共有的索引项时,才计算它们的相似性,否则对应的文档之间相似性值为0。
下面举一个实例用以说明该模型的原理和工作流程:设有两篇文章1和2,内容分别为:
文章1:Tom lives in Guangzhou,I live in Guangzhou too.
文章2:He once lived in Shanghai.
由于是基于关键词索引和查询的,首先我们要取得这两篇文章的关键词,通常我们需要如下处理措施:
(1)根据已有的文章内容,即一个字符串,我们先要找出字符串中的所有单词,即分词。英文单词由于用空格分隔,比较好处理。中文单词间是连在一起的需要特殊的分词处理。
(2)将不代表概念的词可以过滤掉。文章中的“in”, “once”,“too”等词没有实际意义,中文中的“的”、 “是”等字通常也无具体含义,可以将它们过滤掉。
(3)所有单词统一大小写。因为用户通常希望查“He”时能把含“he”, “HE”的文章也找出来。
(4)将部分词还原。用户通常希望查“live”时能把含“lives”,“lived”的文章也找出来,所以需要把“lives”,“lived”还原成“live”。

(5)过滤标点符号。文章中的标点符号通常不表示某种概念,也可以过滤掉。

本站发布的计算机毕业设计均是完整无错的全套作品,包含开题报告+程序+论文+源代码+翻译+答辩稿PPT

本文选自计算机毕业设计http://myeducs.cn
论文文章部分只是部分简介,如需了解更多详情请咨询本站客服!QQ交谈QQ3710167

原创论文

设为首页 | 加入收藏 | 论文首页 |原创论文 |
版权所有 QQ:3710167 邮箱:3710167@qq.com 网学网 [Myeducs.cn] 您电脑的分辨率是 像素
Copyright 2008-2020 myeducs.Cn www.myeducs.Cn All Rights Reserved 湘ICP备09003080号 常年法律顾问:王律师