网站导航免费论文 原创论文 论文搜索 原创论文 网学软件 学术大家 资料中心 会员中心 问题解答 原创论文 大学论文导航 设计下载 最新论文 下载排行 原创论文 论文源代码
返回网学首页
网学联系
最新论文 推荐专题 热门论文 素材专题
当前位置: 网学 > 网学资源大全 > 工科论文 > 正文

基于用户兴趣挖掘的个性化搜索引擎研究

来源:http://myeducs.cn 联系QQ:点击这里给我发消息 作者: 用户投稿 来源: 网络 发布时间: 14/06/28

网学网工科论文编辑为广大网友搜集整理了: 基于用户兴趣挖掘的个性化搜索引擎研究 绩等信息,祝愿广大网友取得需要的信息,参考学习。

     1个性化搜索引擎的应用与研究核心1.1个性化搜索引擎应用个性化搜索引擎指的是搜索引擎根据用户搜索的历史记录,来返回更适合这个用户的搜索结果。这些搜索历史记录包括用户所搜索的关键词,在搜索结果中的点击情况,在各个网站的访问情况,书签情况等。搜索引擎掌握了这些用户资料后进行分析,在用户搜索新的关键词时,能返回更有针对性的搜索结果,从而提高用户体验。个性化搜索引擎在“搜网”中是免费提供的一项服务,它可以使你的网站拥有像门户网站一样强大的搜索引擎,只要根据我们的提示放入几个简单的代码在网站上面,就可以获得这个功能,并且所有的搜索结果全部显示在你的网站上,完全和你自己的搜索引擎一样,并且不会占用服务器的任何资源。

    1.2个性化搜索引擎的研究核心个性化搜索引擎的研究核心点在于准确描述用户的兴趣,从而达到返回给用户个性化搜索结果的目的。互联网中用户的信息是十分重要的,并且对个性化服务最具有指导作用的是用户的兴趣知识,它是实现个性化的关键。用户的兴趣知识必须通过建立合理的模型并利用合适的兴趣挖掘算法来获得。根据用户的兴趣来建立用户的兴趣模型,首先是要获得用户兴趣信息;接着才能对用户的兴趣进行形式化的描述,从中构建除可计算的用户兴趣模型,并能利用智能Agent跟踪用户兴趣的变化,不断地对用户模型进行维护和更新。针对不同用户的兴趣需求,返回用户真正需要的信息,实现用户的个性化搜索。

    1.3个性化搜索比较分析搜索引擎的个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势,因此也一直以来都是业界领袖们各自展现智慧的领域。自2004年10月yahoo推出myweb测试版,到11月a9推出个性化功能,到刚刚推出不久的Google search history基本上都沿着一条路子走,分析特定用户的搜索需求限定的范围,然后按照用户需求范围扩展到互联网上其他的同类网站给出最相关的结果。通过搜索引擎的社区化产品(即对注册用户提供服务)的方式来组织个人信息,然后在搜索引擎基础信息库的检索中引入个人因素进行分析,获得针对个人不同的搜索结果,如Google搜索历史。或者是针对大众化的,Google个性化搜索引擎,或者yahoo MindSet,或者我们都知道的前台聚类的vivisimo。

    但是无论其中的哪一种实现方式,即Google的主动选择搜索范围,还是yahoo vivisimo的在结果中重新组织自己需要的信息,都是一种实验或者创想,短期内无法成为主流的搜索引擎应用产品。对于向注册用户实现个性化搜索的模式一般是通过各种渠道收集个人信息,包括各种toolbar,各种软件客户端,注册信息,搜索query历史,搜索点击历史,甚至本地访问记录,本地文件扫描等等,如filangy,然后再用户搜索的时候搜索引擎在处理基础数据时会附加这些个人特征信息,以便能方便的提供针对你的需要的信息。但是这方面目前还没有特别成功的案例。另外向大众提供个性化搜索服务的,往往都是通过Cookie,IP地址等,附加信息,或者要求用户主动选择搜索范围(如Googlepersonalized),或者被动选择搜索特征或者范围(Yahoo!mindset,vivisimo)。当然目前这方面也没有成功的案例。但是如果能把两者结果起来则是一个很有前途的实现模式,短期内最起码来说可以有所改进。

    2关键技术采用的用户兴趣挖掘技术。首先利用基本词库对页面进行分词,去除停用词、极低频词等,提取出页面特征;然后加入复合词生成算法获取更多的专业术语,生成页面特征向量;接着参考分类词表和用户兴趣向量,提出一种新的页面归类算法将页面归类,并生成最新兴趣向量。介绍了ODP的目录层次结构;然后参考ODP的分类目录,构建用户兴趣树来存储和管理用户的兴趣,最后给出详细的数据库设计。详细描述了模型的建立及更新过程。首先,根据用户首次使用系统时的定制信息生成用户长期兴趣树,利用第一次挖掘的用户兴趣生成初始的短期兴趣树;然后,分析、比较了两种更新用户兴趣的方法和基于时间窗机制的遗忘方法,模拟人类记忆的遗忘规律,提出一种新的遗忘机制;最后,利用这种遗忘机制,不断的更新、优化模型,并给出了详细的更新算法设计。

    3个性化模型的总体设计该模型主要由四个模块组成:页面预处理模块,页面分类模块,兴趣生成模块,更新与优化模块。页面集合中存储了用户最近访问的页面,这些页面隐含着用户的兴趣,是该模型挖掘的起点。首先预处理模块要对缓存中一些无用数据进行清除,只保留用户感兴趣的内容页面,并对这些内容页面进行特征提取等工作。随后,页面分类模块根据用户的个性化模型和分类参考模型将各个页面归类。兴趣生成模块主要负责统计各个兴趣类中的页面特征词信息,综合生成用户兴趣向量。更新与优化模块是模拟人类记忆的遗忘规律,对兴趣类特征词的权值、各个兴趣类的兴趣度进行调整、更新,并有选择地将一些短期兴趣转化成长期兴趣,逐步优化模型。构建基于用户兴趣的个性化模型用于搜索引擎可以更好地满足用户的个性化需求,为用户服务。

    在搜索引擎返回的搜索结果的基础上对结果进行进一步处理,也就是根据兴趣对结果进行过滤,经过处理之后便将用户感兴趣的页面优先返回给用户,从而实现了用户兴趣信息的个性化搜索。4结束语搜索引擎工作的有效性关键在于用户兴趣的提取。用户兴趣提取技术使搜索引擎融个性化和智能化于一体,是迅速、有效、最贴近用户需求的信息检索新方法具有较强的理论意义和使用价值。未来个性化搜索中的用户兴趣提取将综合运用计算机人工智能、数据挖掘、分布式数据处理、自然语言处理、数据库管理等技术分析用户提交的信息请求。对用户的个性化兴趣、个体信息需求,帮助用户更快、更准确地找到所需信息,使搜索效果达到最优。无论搜索引擎技术如何发展,其最终目的还是将最适合的信息传递给最需要的信息用户

网学推荐

免费论文

原创论文

设为首页 | 加入收藏 | 论文首页 | 论文专题 | 设计下载 | 网学软件 | 论文模板 | 论文资源 | 程序设计 | 关于网学 | 站内搜索 | 网学留言 | 友情链接 | 资料中心
版权所有 QQ:3710167 邮箱:3710167@qq.com 网学网 [Myeducs.cn] 您电脑的分辨率是 像素
Copyright 2008-2015 myeducs.Cn www.myeducs.Cn All Rights Reserved 湘ICP备09003080号