网站导航网学 原创论文 网站设计 最新系统 最新研究 原创论文 获取论文 论文降重 发表论文 论文发表 UI设计定制 论文答辩PPT格式排版 期刊发表 论文专题
返回网学首页
网学原创论文
最新论文 推荐专题 热门论文 论文专题
当前位置: 网学 > 设计下载 > Java类作品 > 正文

基于Java数据挖掘中的关联算法设计

来源:http://myeducs.cn 联系QQ:点击这里给我发消息 作者: 用户投稿 来源: 网络 发布时间: 13/05/09

网学网为广大网友收集整理了,基于Java数据挖掘中的关联算法设计,希望对大家有所帮助!

QQ交谈客服咨询,网学网竭诚为您服务,本站永久域名:myeducs.cn

一、研究目的意义:
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。数据挖掘最吸引人的地方是它能建立预侧模型而不是回顾型的模型。
Apriori算法是最经典的挖掘关联规则算法,在发现关联规则领域有很大的影响力。
此外,通过使用eclipse对关联规则算法的实现,不但能增强我对JAVA技术的理解与应用,在设计的过程中也能对让我各方面的能力得到一定的锻炼,为以后的学习和工作积累经验
 
二、国内外研究状况和应用前景:
     在国外,数据挖掘技术已被广泛的应用于各个领域,如在天文学和空间科学上的成功应用;生物学研究中用数据挖掘技术对DNA进行分析;利用数据挖掘技术识别顾客的购买行为模式,对客户进行了分析;对银行或保险公司经常发生的诈骗行为进行预测等。在学术研究上,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了数据挖掘专题或专刊。
与国外相比,国内对数据挖掘的研究稍晚,没有形成整体力量。1993年国家自然科学基金首次支持数据挖掘领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展数据挖掘和知识发现的基础理论及其应用研究。国内比较重要的会议有全国数据库学术会议(National DataBase Academic Conference,简称NDBC),权威的杂志有《计算机学报》、《软件学报》和《计算机研究与发展》。
当前,数据研究研究正方兴未艾,预计研究焦点可能会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。
 
参考文献:《数据挖掘(第二版)》朱明 中国科学技术大学出版社
            《数据挖掘原理与算法(第2版) 》毛国君、段立娟 清华大学出版社
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
三、主要内容、研究方法和思路:
1、主要内容
一般地,关联规则挖掘是指从一个大型的数据集(Dataset)中发现有趣的关联规则或相关关系,即从数据集中识别出频繁出现的属性值集,也称为频繁项集(FrequentItemsets,简称频繁集)。然后再利用这些频繁集创建描述关联关系的规则的过程。
实现的Apriori算法可以利用已知的高频数据项集推导其它高频数据项集,依据是频繁项集的子集必为频繁项集。
 
2、研究方法和思路
()主演示窗口的实现
主演示窗口中,可在菜单栏设置文件、编辑、参数设置、查看、帮助等选项。文件菜单可用来打开、保存、退出程序;参数设置:即设置算法所需的项目个数及支持度,以计算频繁项目集。帮助:是对Apriori算法的一个简单说明。
 
()、算法思想及其实现步骤
1、算法思想:Apriori使用了一种称作level-wise搜索(即逐层搜索)的迭代方法,其中k-项集被用作寻找(k+1)-项集.首先,找出频繁1-项集,L1表示.L1用来寻找L2,即频繁2-项集的集合.L2用来寻找L3,以此类推,直至没有新的频繁k-项集被发现.每个Lk都要求对数据库作一次完全扫描。
2算法实现步骤:
①、数据收集与预处理:即收集部分元素作为数据挖掘的对象。
②、运算过程:Apriori的第一步找出频繁1-项集的集合L1 Lk-1用于产生候选Ck,以找出Lk。然后使用Apriori性质(即非频繁项集的超集一定是非频繁的)删除那些具有非频繁子集的候选。一旦产生了所有的候选,就扫描数据库。对于每个事务,找出事务中是候选的所有子集,并对每个这样的候选累加计数。最后,所有满足最小支持度的候选形成频繁项集L。
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
四、总体安排和进度:
      12010-12-01----2010-12-30完成算法设计方案。
      22011-01-01----2011-02-28完成算法初步实现。
      32011-03-01----2011-03-30完成算法实现。
      42011-04-01----20011-04-30完成论文初稿。
      52011-05-01----2011-05-29完成论文。
      62011-05-30----2011-06-03完成英文翻译及系统使用说明书。
 
 
 
 
 
 
 
 
 
 
 
 
 
 

本站发布的计算机毕业设计均是完整无错的全套作品,包含开题报告+程序+论文+源代码+翻译+答辩稿PPT

本文选自计算机毕业设计http://myeducs.cn
论文文章部分只是部分简介,如需了解更多详情请咨询本站客服!QQ交谈QQ3710167

  • 下一篇资讯: JAVA客户端软件的设计
  • 原创论文

    设为首页 | 加入收藏 | 论文首页 |原创论文 |
    版权所有 QQ:3710167 邮箱:3710167@qq.com 网学网 [Myeducs.cn] 您电脑的分辨率是 像素
    Copyright 2008-2020 myeducs.Cn www.myeducs.Cn All Rights Reserved 湘ICP备09003080号 常年法律顾问:王律师