鉴于大家对其他类别十分关注,我们编辑小组在此为大家搜集整理了“基于Web的图像搜索”一文,供大家参考学习
客服咨询,网学网竭诚为您服务,本站永久域名:myeducs.cn |
2.2 图像信息检索 Web搜索引擎采用何种检索模型,它所提供检索质量将直接影响到检索的效果。现在使用较多的是布尔检索模型、概率检索模型、概率推理网络模型和向量空间模型。这里采用的是近年来使用较多且效果较好的一种信息检索模型:向量空间模型。 2.2.1 检索模型与相似度 在用向量空间模型进行检索的时候,首先把描述网页中的图片的文字信息看作是有序的词条序列,这样把以上归纳的信息分别称为:ICW,ITW,IAW,PTW。在应用模型时,我首先要将这些信息向量化,把文档映射为一个特征向量V(d)=(t1,ω1(d);…;tn, ωn(d)),其中ti(i=1,2, …,n)为一列互不雷同的词条项,ωi(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数,即 在信息检索中常用的词条权值计算方法为 TF-IDF 函数 其中N为所有文档的数目,ni为含有词条ti的文档数目。TF-IDF公式有很多变种,下面是一个常用的TF-IDF公式: 根据公式,文档集中包含某一词条的文档越多,说明它区分文档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。 两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示,即文档di,dj的相似度可以表示为 进行查询的过程中,先将查询条件Q进行向量化,主要依据布尔模型: 当ti在查询条件Q中时,将对应的第i坐标置为1,否则置为0,即 也就是说当两词条完全相同时,,这一项为1,其余情况为0。可以看出文档含有完全相同的词条时,相似度=1;而其中无相同时的词条时,相似度=0。 从而文档d与查询Q的相似度为 根据文档之间的相似度,结合机器学习的一些算法如神经网络算法,K-近邻算法和贝叶斯分类算法等,可以将文档集分类划分为一些小的文档子集。 在查询过程中,可以计算出每个文档与查询的相似度,进而可以根据相似度的大小,将查询的结果进行排序。 向量空间模型可以实现文档的自动分类和对查询结果的相似度排序,能够有效提高检索效率;它的缺点是相似度的计算量大,当有新文档加入时,则必须重新计算词的权值。 2.2.2 分词技术和匹配方法 1. 常用的切词算法如下: (1)最大正向匹配法 基本思想是:设D为词典,MAX表示D中的最大词长,str为待切分的字串。它是每次从str中取长度为MAX的子串与D中的词进行匹配。若成功,则该子串为词,指针后移MAX个汉字后继续匹配,否则子串逐次减一进行匹配。 (2)逆向最大匹配法 它的基本原理与前面的相同,不同的是分词的扫描方向,它是从右至左取子串进行匹配。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245,它切分的准确率上比正向匹配法有很大提高。 (3)基于词频的统计方法 统计方法一般不依赖于词典,而是将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计,出现的次数越高,成为一个词的可能性也就越大。在频率超过某个预先设定得阈值时,就将其作为一个词进行索引。这种方法能够有效地提取出未登录词。 2. 匹配方法: (1)词典存储格式: 首先对存储形式进行建模,结构是3层树形结构,如下 一层存储所有单字。第二层保存所有的双字词和多字词的前两个字(因为,也许会出现ABC为词,但AB不是词的情况),并对两者做不同标记(t/f)。每一个可成词的单字对应一系列第二层结点,用来存储所有以该字为词首的双字(包括上述两种情况)。并且,在这里,针对每一个双字,需要记录以该双字为词首的所有词的最大长度,实际中,可以保存除去该双字部分的最大长度(记为n)。第三层存储以某一双字为首的所有词。为了减少存储空间,只存储除去该双字以外的部分(如上图所示)。每一层各结点需按某种次序排列,可使用hash、二分查找等方法进行查询。采用这种层次的存储结构,可以很快把查询词的工作缩小到一个很小的范围内,有利于分词效率的提高。 |
本站发布的计算机毕业设计均是完整无错的全套作品,包含开题报告+程序+论文+源代码+翻译+答辩稿PPT |
本文选自计算机毕业设计http://myeducs.cn |