【网学提醒】:本文主要为网上学习者提供交互式可视化例外数据挖掘方法研究及应用,希望对需要交互式可视化例外数据挖掘方法研究及应用网友有所帮助,学习一下吧!
资料包括: 论文(67页30980字) 图纸
说明:摘 要:本文针对胜利油田生产数据库高效例外数据挖掘问题,在综合研究各种可视化例外数据挖掘方法以及胜利油田生产数据库特点的基础上,提出了一种新颖的交互式可视化例外数据挖掘方法。该方法提高了例外数据挖掘的效率与精度,并将其应用到胜利油田生产数据库中验证了该方法的有效性,为后续工作提供了技术支撑和理论基础。主要研究内容和取得的成果如下:
(1) 通过研究数据挖掘中的各种可视化方法,提出了一种新颖的交互式可视化例外数据挖掘方法。该方法思路为:先将数据库表中的数值属性值转化为相应字符,再给各字符赋以相应颜色值,每次可视化显示出4个连续属性的模式分布情况。根据可视化图形所识别出的频繁模式候选集以及例外模式定义,计算每条数据的例外支持度,由所设定阈值即可得到例外数据。将该方法与经典例外检测算法LOF和QRNOF算法进行了实验对比,实验数据采用真实的胜利油田生产数据集。实验结果显示所提方法在计算速度以及精度上都优于LOF及QRNOF,与LOF及QRNOF相比速度分别提高了16倍和5倍,精度分别提高了27%和40%。在着色方面,该方法对PBC方法进行了改进,更加适应人的感知,使人们更易于对可视化图形的识别与分析。
(2) 针对胜利油田生产数据库的分布式特点,在研究分布式数据挖掘方法的基础上,本文给出了适合胜利油田生产数据库的分布式可视化例外数据挖掘任务分配模型和具体算法。并运用了Socket通信机制实现了客户端与服务器之间的交互。
(3) 在上述两项研究工作的基础上,我们将所提出的交互式可视化例外数据挖掘方法应用到胜利油田生产数据库中验证其有效性,并设计实现针对胜利油田生产数据库的交互式可视化例外数据挖掘的原型软件系统。该系统实现了高效检测胜利油田生产数据库数据中的例外数据同时还可以实现资源共享,提高了资源利用率,同时也能使数据挖掘过程透明化,节省了人力。该系统同样适用于大规模数据库的例外数据检测,具有一定的通用性并为后续工作打下坚实的基础。
关 键 词: 数据库;知识获取;数据挖掘;可视化;例外模式
Abstract :This paper mainly focuses on the effective outlier data mining problem of SLOF''s (Shengli oil field) production database. Based on plenty of research works on visualization outlier data mining method and the characters of SLOF''s production database, we proposed one novel interactive visualization outlier data mining method, which enhances efficiency and the precision on outlier data mining. The effectively is proved by the actual use on SLOF''s production database. It has provided the technical support for the future work and theoretic foundation. The main contents and achievements of the research are as follows:
(1) Through researching various visualization methods on data mining, we propose a novel interactive visualization outlier data mining method. The way is as follows: First we transform the number value of fields in database table to corresponding character; Then we set each character endue with corresponding color value. Each time the visualization model shows the distribution situation of 4 continually attributes; Based on the frequent patterns candidate-set of the visualization model and the definition of outlier pattern, we calculate the outlier support degree on each data to obtain the outliers by pre-established threshold value. We Contrast our method with classical LOF and QRNOF outlier detecting algorithms. The experiment data set employs the SLOF''s production data set. The experiment result shows our method superior to LOF and QRNOF in the computation speed and precision. In the computation speed side, it enhanced 16 times and 5 times separately; in the precision side, it enhanced 27% and 40% separately. It also superior to and improve on the PBC algorithm in pigmentation way. Our method even more adapts to person''s sensation and helps people to recognize and analyze more easily.
(2) In allusion to the distributed characteristic of SLOF''s production database and based on the distributed data mining research, we give one assignment allot model and one concrete algorithm of the distributed visualization outlier data mining, which suited to SLOF''s production database. We realize the interactive correspondence between client and server by Socket mechanism.
(3) Based on above two research works, we applied the interactive visualization Outlier data mining method to SLOF''s production database to testify its validity. We design and realize a prototype software system for interactive visualization outlier data mining on SLOF''s production database. This system realizes effective detecting outlier data in SLOF''s production database and resources communion. It also enhances the using of resources, saves manpower and makes data mining processing vitrification. This system has common characteristics which also can be suitable for outlier data detecting on large-scale database. It builds the solid foundation for the following works.
Keywords : Database Knowledge Acquirement Data mining Visualization Outlier Patterns
1 绪 论
1.1 研究背景及意义
胜利油田“九五”以来就着手建立了较为完善的专业管理信息系统,全面覆盖了油田经营管理各项业务,促使信息把握更加及时,管理效率显著提高。近几年油田主要致力于系统间的联动,作为国内应用ERP(Enterprise Resource Planning)系统规模最大的一家企业,2005年胜利油田ERP系统(企业资源计划)正式上线运行,信息系统由过去的“单线应用”转变为“集成应用”,原有的管理模式发生了重大变革,建立了新的管理程序,用标准、优化的流程解决了制度落实过程中存在的不足。由于随着计算机技术在胜利油田的广泛应用,积累了大量的生产信息数据,并且油田开发和生产科研土作中的大量信息已经实现网上传输。在传输数据的过程中,由于各种原因,不可避免地会出现一些错误数据,从而影响到最终的结果而掩盖了正确的生产信息。
根据对油田生产情况的具体分析,可以将生产数据的错误类型分为以下三类:
(1) 不符合原始界限(该界限用户己给出)时,有以下几种可能的原因:
① 数据在输入和存储过程中计算机产生的错误;
② 人工输入数据时,以欺诈为目的对数据的恶意修改。
上述情况,不符合用户所给出的最大范围,表明该数据是完全错误的,需要监控人员直接对其进行处理。
(2) 数据变化过大,原因如下:
① 数据在输入和存储过程中计算机的错误;
② 人工输入数据时,以欺诈为目的对数据的恶意修改;
③ 在生产过程中,人为的影响(例如油井作业、维修时,己停产)。
(3) 不符合数据的大体趋势时,原因同(2)。
所以迫切需要一种能及时检测例外数据的方法来提高数据质量,在数据挖掘领域此问题归结为例外数据挖掘问题。针对胜利油田数据库所积累的大量数据,更加需要一种能高效进行例外数据挖掘的方法,并且该方法应具有透明性和可信度高的特点。
为了使发现知识的过程和结果易于理解和在发现知识过程中进行人机交互,要发展发现知识的可视化方法。为了了解数据之间的相互关系及发展趋势,人们可以求助于可视化技术。可视化不仅用图像来显示多维的非空间数据,使用户加深对数据含义的理解;而且用形象直观的图像来指引检索过程,加快检索速度;在检索结果的显示上,也可以使用可视化的手段或方法。可视化一直是计算机领域的研究热点,随着数据挖掘应用的发展,人们对数据挖掘的可视化要求越来越高,数据挖掘可视化是目前数据挖掘研究的一个重要方面。数据挖掘可视化方法目的就是要很好利用了人类的这种对于可视化形式下模型和结构的获取能力,并且对这个结果进行分析解释。数据挖掘可视化己经证明在探索性数据分析中有很大的价值,同时在处理大型数据库中也有很好的潜力。对于分析人员来说,将数据挖掘整个过程进行可视化具有非常高的价值和重要性。将抽象的信息以一种简明的形式呈现出来,从而给用户一个关于分析结果总体情况的概念。这样,也可以给分析人员更多的自信以指导下一步的工作。通过将数据挖掘过程用可视化方式呈现出来,从而帮助分析人员以一种形象、简明的方式掌握知识萃取和决策分析的过程,并让他们充分的融入其中。将可视化技术与数据挖掘技术两者结合起来,进行可视化的数据挖掘,可以大大地提高数据挖掘的效率,也可以得到更多更有价值的结果。数据挖掘可视化的目的是使用户能够交互地浏览数据、挖掘过程等,当所要识别的不规则事物是一系列图形而不是数字表格时,人的识别的速度是最快的。
目录:1 绪 论1
1.1 研究背景及意义1
1.2 国内外的研究动态及发展趋势5
1.3 本文研究内容及取得成果9
1.4 本文章节安排10
2 一种新颖的交互式可视化例外数据挖掘方法研究12
2.1 可视化例外数据挖掘的步骤12
2.2 数值属性离散化以及概念分层13
2.2.1 主要工作13
2.2.2 数值属性离散化具体步骤15
2.3 交互式可视化16
2.3.1 可视化方法描述与具体步骤16
2.3.2 象素着色方法描述与具体实现17
2.4 例外数据挖掘18
2.5 实验分析20
2.5.1 实验数据描述20
2.5.2 数值属性离散化以及概念分层实验22
2.5.3 交互式可视化方法实验23
2.5.4例外数据挖掘方法实验25
2.6 性能分析26
2.6.1 与LOF、QRNOF算法的性能比较26
2.6.2 与PBC系统中圆分割算法的比较29
2.7 本章小结31
3 分布式可视化例外数据挖掘方法研究32
3.1 分布式数据挖掘的特点32
3.2 分布式可视化例外数据挖掘方法34
3.2.1任务分配模型34
3.2.2 分布式可视化例外数据挖掘算法35
3.3 基于客户机/服务器方式的Socket通信流程及实现36
3.4 本章小结41
4 交互式可视化例外数据挖掘原型软件42
4.1 交互式可视化例外数据挖掘软件设计42
4.2 交互式可视化模块功能实现43
4.3 分布式可视化模块功能实现45
4.4 例外检测模块功能实现50
4.5 本章小结51
5 结 论52
5.1 全文总结52
5.2 今后工作的展望53
致 谢54
参考文献55
附 录59
参考文献: T Johnson, I Kwok, T Ng. Fast computation of 2-dimensionsl depth contours. In Proc. of the 4th Int. Conf. on Knowledge Discovery and Data Mining, New York: AAAI Press, 1998, 224-228
I Ruts, P Rousseeuw. Computing Depth Contours of Bivariate Point Clouds. Journal of Computational Statistics and Data Analysis, 1996, 23: 153-168
Z He, X Xu, S Deng. Discovering cluster based local outliers. Pattern Recognition Letters, 2003, 24(9/10): 1641-1650
M F Jiang, S S Tseng, C M Su.Two-phase clustering process for outlier detection. Pattern Recognition Letters, 2001, 22(6/7): 691-700
D Yu, G Sheikholeslami, A Zhang. FindOut: finding out outliers in large datasets. Knowledge and Information Systems, 2002, 4(4): 387-412
E M Knorr, R T Ng. Algorithms for Mining Distance-Based Outliers in Large Datasets. In Proc. of the 24th Int. Conf. on Very Large Data Bases, San Francisco: Morgan Kaufmann Press, 1998, 392-403
E M Knorr, R T Ng. Finding Intentional Knowledge of instance-based Outliers. In Proc. of the 25th Int. Conf. on Very Large Data Bases, Scotland: Edinburgh Press, 1999, 211-222
S Ramaswamy, R Rastogi, K Shim.Efficient algorithms for mining outliers from large datasets. In Proc. of SIGMOD’00, 2000, 427-438
M Breunig, H P Kriegel, R Ng, J Sander. Optics-of: Identifying local outliers. In Proc. of PAKDD’99, 1999, 262-270
M Breunig, H P Kriegel, R Ng, J Sander. Lof: Identifying density-based local outliers. In Proc. of SIGMOD’00, 2000, 93-104
W Jin, A K Tung, J Han.Mining top-n local outliers in large databases. In Proc. of KDD’01, 2001, 293-298
C Anny, F Ada.Enhancements on Local Outlier Detection. In Proc. of IDEAS’03, 2003, 298-307
M Agyemang, C I Ezeife. LSC-Mine: Algorithm for Mining Local Outliers. In Proc. of the 15th Information Resource Management Association (IRMA) International Conference, New Orleans: IRM press, 2004, 5-8
S Papadimitriou, H Kitagawa, P B Gibbons, C Faloutsos. LOCI: fast outlier detection using the local correlation integral. In Proc. of ICDE’2003, 315-326
[15] J Tang, Z X Chen, A Fu, C David.Enhancing Effectiveness of Outlier Detections for Low Density Patterns. In Proc. of PAKDD’02, 2002, 535-548
[16] O Trier, A K Jain, T Torfinn. Feature extraction methods for character recognition-a survey.Pattern Recognition, 1996, 29: 641-662
[17] T H Reiss. The received fundamental theorem of moment invariants.IEEE Trans Pattern Analysis Machine Intelligence, 1991, 13: 830-834
[18] 魏藜,宫学庆, 钱卫宁等. 高维空间中的离群点发现. 软件学报, 2002, 13(2): 280- 290
[19] 郑斌祥, 杜秀华, 席裕庚. 一种时序数据的离群数据挖掘新算法. 控制与决策, 2002, 17(3): 324-327
[20] 李存华, 孙志辉. GridLOF:面向大规模数据集的高校离群点检测算法.
计算机研究与发展, 2003, 40(11): 1586-1591
[21] 姜灵敏. 给予相似系数和检测孤立点的聚类算法.
计算机工程,2003,29(11):183-185
[22] 方英武等. 分布式数据挖掘计算过程——DDCP算法研究. 电子科技大学学报, 2003, 32(1): 80-84
[23] 江建举, 葛运建. 基于CORBA的新型分布式数据挖掘体系结构研究.
计算机工程与应用, 2002, 23, 188-190
[24] 王黎明, 柴玉梅, 黄厚宽. 基于多Agent的分布式数据挖掘模型.
计算机工程与应用, 2004, 9, 197-199
[25] E M Knorr, R T Ng. Algorithms for minging distance-based outliers in large datasets. In Proc. of the 24th Int. Conf. on Very Large Databases, New York: Morgan Kaufmann Press, 1998, 392-403
[26] M Joshi, R Agarwal, V Kumar. Mining needles in a haystack; Classifying rare classes via two-phase rule induction. In Proc. of ACM SIGMOD Int. Conf. on Management of Data, CA: ACM Press, 2001, 91-102
[27] L Portnoy, E Eskin, S Stolfo.Intrusion detection with unlabeled data using clustering. In Proc. of ACM CSS Workshop on Data Mining Applied to Security (DMSA - 2001), PA: Philadelphia Press, 2001, 5-8
[28] A Chaudhary, A Szalay, A Moore.Very Fast Outlier Detection in Large Multidimensional Data Sets. Research Issues on Data Mining and Knowledge Discovery Date, 2002
[29] A Ghoting, M Otey, S Parthasarathy.Loaded: Link-based Outlier and Anomaly Detection in Evolving Data Sets. IEEE International Conference on Data Mining Date, 2004, 387-390
[30] S Sarawagi, R Agrawal, N Megiddo. Discovery - Driven exploration of OLAP data cubes. In Proc. of 6th Int. Conf. on Extending Database Technology, Valencia: Springer - Verlag Press, 1998, 168-182
[31] H Kargupta, I Hamzaoglu, B Stafford, V Hanagandi, K Buescher. PADMA: Architecture for Scalable Text Classification.Accepted in High Performance Computing''97. LAUR-96-3491.
[32] D Cheung, J Han, N VT, F AW, F YJ. A fast distributed algorithm for mining association rules. In Proc. of the 4th Int. Conf. on Parallel and Distributed Information Systems, Miami Beach: IEEE Press, 1996, 31-44
[33] H Kargupta, B Park, D Hershberger, E Johnson. Collective data mining: A new perspective toward distributed data mining. In Proc. of the Int. conf. on Knowledge Discovery and Data Mining, New York: ACM Press, 2000, 355-359
[34] R GROSSMAN, G Y Hong, D HANLEY. Photonic Data Services: Integrating Data, Network and Path Services to Support Next Generation Data Mining Applications. In Proc. of the 10th Int. Conf. on Knowledge Discovery and Data Mining, New York: AAAI Press, 2004, 1-15
[35] A K Danile.Information Visualization and Visual Data Mining. IEEE Transactions on Visualization and Computer Graphics, 2002, 7(1): 100-108
[36] J Jarke, R Edward. Cluster and Calendar based Visualization of Time Series Data. IEEE Symposium on Information Visualization, 1999, 1-6
[37] 李爱国. 时间序列数据分割与模式发现研究[博士学位论文]. 西安: 西安交通大学, 2003, 78-82
[38] J Han, M Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, 2000, 308-311
[39] 李爱国, 赵彩, 李占怀. PREDICTION TRENDS OF CHAOTIC TIME SERIES. 西安交通大学学报(英文版), 2007(1)
[40] D W Cheung, J Han. A fast distributed algorithm for mining association rules. International Conference on Parallel and Distributed Information Systems, 1996, 12(10):31-44
[41] D W, Cheung, V T Ng, A W Fu, el al. Efficient mining of as association rules in distributed databases. IEEE Trans on Knowledge and Data Engineering, 1996, 8(6):911-922
作者点评:5.1 全文总结
本文主要针对胜利油田生产数据库高效例外数据挖掘问题,在综合研究各种可视化例外数据挖掘方法以及胜利油田生产数据库特点的基础上,提出了一种新颖的交互式可视化例外数据挖掘方法。该方法提高了例外数据挖掘的效率与精度,并将其应用到胜利油田生产数据库中验证了该方法的有效性,同时设计完成胜利油田生产数据库交互式可视化例外数据挖掘原型软件系统,为后续工作提供了技术支撑和理论基础。
主要研究内容和取得的成果如下:
(1) 通过研究数据挖掘中的各种可视化方法,提出了一种新颖的交互式可视化例外数据挖掘方法,其思路为:先将数据库表中的数值属性值转化为相应字符,再给各字符赋以相应颜色值,每次可视化显示出4个连续属性的模式分布情况,根据可视化图形所识别出的频繁模式候选集以及例外模式定义,计算每条记录的例外支持度,由所设定阈值即可得到例外数据。将该方法与经典例外检测算法LOF和QRNOF算法进行了实验对比,数据采用真实的胜利油田生产数据集。结果显示交互式可视化例外数据挖掘方法在计算速度以及命中例外数据的精度上都优于LOF及QRNOF,速度分别提高了16倍和5倍,命中精度分别提高了27%和40%。该方法在着色方面,对PBC算法进行了改进,更加适应人的感知,使人们更易于对可视化图形的识别与分析。
(2) 针对胜利油田生产数据库的分布式特点,在研究分布式数据挖掘方法的基础上,给出了适合胜利油田生产数据库的分布式可视化例外数据挖掘任务分配模型和具体算法,运用了Socket通信机制实现客户端与服务器之间的交互。为胜利油田生产数据库的分布式可视化例外数据挖掘奠定了基础。
(3) 在上述两项研究工作的基础上,将所研究的新颖方法应用到胜利油田生产数据库中验证其有效性,并设计实现针对胜利油田生产数据库的交互式可视化例外数据挖掘的原型软件系统。该系统实现了高效地检测出胜利油田生产数据库数据中的例外数据同时还可以实现资源共享,提高了资源利用率,也能使数据挖掘过程透明化,节省了人力。该软件同样也能适用于大规模数据库的例外数据检测,具有一定的通用性,为后续工作打下坚实的基础。