【网学提醒】:本文主要为网上学习者提供基于web的数据挖掘研究—个性化web服务,希望对需要基于web的数据挖掘研究—个性化web服务网友有所帮助,学习一下吧!
资料包括: 论文(11页6768字) 图纸
说明:摘 要:基于Web数据挖掘是一个结合了数据挖掘和WWW的热门研究主题。文章介绍了Web数据挖掘最流行的分类:Web内容挖掘、Web结构挖掘和Web使用记录挖掘。在web使用记录挖掘方面延伸提出个性化web服务的一个解决方案。
0简介
数据库和信息技术已经从原始的文件处理演化到复杂的、功能强大的数据库系统,其间包含了大量的数据,而数据的丰富带来了对强有力的数据分析工具的要求。数据挖掘就是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。
Web是一个巨大的、广泛分布的、高度异构的、半结构化的、超文本/超媒体的、相互联系并且不断进化的信息仓库;是一个巨大的文档累积的集合,包括超链信息,访问及使用信息。大量的非结构化数据无法使用现有的数据库管理系统来操纵和管理,其用户群体也表现出多样性的特点,这些都对信息系统的研究人员提出新的挑战。Web数据挖掘起源于数据挖掘,但是传统的数据挖掘大多是针对关系数据库或数据仓库的,所处理的数据具有完整的结构,而Web包含各种类型的数据,Web数据的非结构化这一显著特征使Web数据挖掘必然更加复杂。
数据挖掘与知识获取是近10年来
计算机科学研究的一个热点。在数据挖掘发展的最初阶段,研究者更多地把注意力集中在对存放在数据库中的数据进行挖掘,KDD(Knowledge Discovery in Database)从数据库中获取知识的概念就是在这种情况下被提了出来。进入21世纪以来,随着网络技术的发展,尤其是internet的广泛应用,使得数据挖掘的对象从数据库中的数据延伸到网络上的数据。在这种情况下产生了一个新的概念:KDW (Knowledge Discovery in web),从网络上获取知识。Fayya等人对此作出了如下定义:从数据中识别出有效的、新颖的、潜在有用的和最终可理解的模式之非平凡过程。参照这个定义,本文将定义为从Web上的内容、结构和访问中分析出有效的、新颖的、潜在有用的和最终可理解的知识之非平凡过程。
1引言
目前World Wide Web(WWW)已经发展成为拥有近亿个工作站,数十亿页面的分布式信息空间,在这个分部是信息空间中蕴含着具有巨大潜在价值的知识,也带来的巨大的经济效益和社会效益。
对于不同层次,不同使用目的和爱好的浏览者需要个性化的信息服务,希望网站能够根据自己的浏览习惯,动态定制Web站点,实现个性化的浏览;对于网站的经营管理者来说,为提高网站的声誉和效益,需要了解其客户需要什么和想做什么,其中包括根据大多数客户的共同兴趣,开展有针对性的信息服务,以及对特定的用户开展个性化的信息服务和电子商务活动。
Web服务器中的日志文件(web server log)记录了每一位用户在访问本站点时的相关信息,包括:用户的ip地址,访问的时间,访问的页面,访问的方式,
http版本号,返回码,传输字节数,引用页的URL等。
出于网站的角度,其web日志数据以每天数十兆甚至上百兆的速度增长,人工分析和处理这些日志数据一般来说是不可能的。
解决这个
问题的途径之一就是将传统的数据挖掘技术应用于从海量的web日志数据中自动,快速地发现用户的访问模式,如频繁访问路径,频繁访问页组用户聚类等。Web用户访问信息挖掘所得到的模式既有助于提高网站的性能和安全性,也可以作为优化站点拓扑结构及页面之间的超
链接关系的依据,也是在web上进行市场开发和开展电子商务活动的依据,也可以作为网站为用户提供个性化服务和构建智能化web站点的依据。
目录:0简介
1引言
2Web挖掘综述
3服务器端存在的问题研究的重点
3客户端agent解决方案
4总结
作者点评:基于Web的个性化信息服务已发展为Web服务较常见而且也是较流行的形式之一。它为人们在浩如烟海的混乱信息中寻求一种有效、快捷的信息获取方式提供了捷径。早期的基于Web的个性化信息服务主要是新闻剪裁、股票报价和目录推荐等内容组成。随着电子商务的发展,个性化信息服务用于网上产品推荐和营销,象Amazon书店、Dell
计算机公司,都已获得了巨大成功。其原因就是它能满足不同客户的需求,创造出了一种前所未有的经营方式,带来了营销观念的变革。这种新时代的来临,有可能动摇传统的生产和营销根基,改变商家和顾客的联系方式以及商家的经营方式。随着Web领域内人工智能技术、数据库技术、知识发现技术的不断完善和发展,个性化主动信息服务将不再仅仅停留在大众化的娱乐性或专业性资讯类信息的提供上,而是把用户的许多个人业务处理也加入到服务的范畴。Web信息将扩展为真正的个人信息,并帮助用户理解和管理这些信息,这种新的服务将成为一种深入到用户个体生活工作各个层面的辅助性工具,将会成为互连网发展的一个新热点。