【网学提醒】:本文主要为网上学习者提供基于Web的文本分类挖掘的研究,希望对需要基于Web的文本分类挖掘的研究网友有所帮助,学习一下吧!
资料包括: 论文(26页12866字)
说明:提要:文本分类最初是应文本信息检索的要求出现的,但是随着文本数据的激增,传统的研究方法己经不适合大规模文本分类,文本数据挖掘应运而生。作为文本数据挖掘的一个重要功能,文本分类技术日益成为研究热点。文本分类目的是对文本集有序组织,便于文本信息高效管理,为人的决策提供支持。但是传统的人工分类的做法存在许多弊端,不仅是耗费大量人力、物和精力,而且受人为因素影响较大,分类结果一致性不高。与之相比,文本自动分类具有快速、高效的特点,且分类准确率较高。
对文本分类技术进行研究,介绍文本分类的基本过程,论述文本特征提取方法,讨论朴素贝叶斯、K近邻、支持向量机、投票等常用的文本分类原理与方法,探讨中文文本分类技术。
采用支持向量机技术,设计并实现了一个开放的中文文档自动分类系统。实验表明,它不仅具有较高的训练效率,同时能得到很高的分类准确率和查全率。
关键词:文本挖掘 文本分类 支持向量机 向量空间模型
外文提要
Text categorization appears initially for text information retrieval system; however text data increases so fast that traditional research methods have been improper for large-scale text categorization. So text data mining emerges, and text categorization becomes more and more important as a major research field of it.
The purpose of text categorization is to organize text by order,so as to manage text information efficiently and support decisions of human being. However categorization by hand not only consumes plenty of manpower, material resources and energy, but also makes categorization accuracy inconsistent. Compared with categorization by hand, automatic text categorization classifies texts faster and its categorization accuracy rates higher.
Introduces the techniques of text categorization, including its basic process ,the algorithms of text feature extraction ,the theories and technologies such as Naïve bayes, KNN, SVM, Voted and so on. Chinese text classification is discussed.
An open Chinese document classification system using support is designed and implemented.
The experiment shows that it not only improves training efficiency, but also has good precision and recall.
Key word:text mining Text categorization Support Vector Machine(SVM) vector space model
第一章 绪 论
1.1 文本自动分类研究的背景和意义
分类最初是应信息检索(Information Retrieval,简称IR)系统的要求而出现的,也是数据挖掘应用领域的重要技术之一.随着全球计算机与通讯技术的飞速发展、互联网的普及与应用,信息爆炸的现实使人们越来越注重对自动分类的研究,文本自动分类及其相关技术的研究也日益成为一项研究热点。信息检索系统必须操纵大量的文本数据,其文本信息库可能相当庞大。如何在海量文本信息中获取潜在的、有价值的知识,模型或规则,这就需要引入文本数据挖掘概念。数据挖掘是从大量的文本数据中提取出事先未知的、可理解的、可应用的信息和知识的过程。数据挖掘融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术,能够对将来的趋势和行为进行预测,从而很好地支持人们的决策。
文本数据挖掘(Textual Data Mining),亦称文本挖掘(Textual Mining),或者从文本数据库中发现知识,以文本数据为特定挖掘对象的数据挖掘,是数据挖掘的扩展。
文本挖掘抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。1998年底,国家重点研究发展规划首批实施项目中明确指出,文本挖掘是“图像、语言、自然语言理解与知识挖掘”中的重要内容。
文本挖掘利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源(如文档、电子表格、客户电子邮件、问题查询、网页等),抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。
从目前文本挖掘技术的研究和应用状况来看,从语义的角度来实现文本挖掘的很多,目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。
(1)文档聚类
首先,文档聚类可以发现与某文档相似的一批文档,帮助知识工作者发现相关知识;其次,文档聚类可以将一个文档聚类成若干个类,提供一种组织文档集合的方法;再次,文档聚类还可以生成分类器以对文档进行分类。
文本挖掘中的聚类可用于:提供大规模文档集内容的总括;识别隐藏的文档间的相似度;减轻浏览相关、相似信息的过程。
聚类方法通常有:层次聚类法、平面划分法、简单贝叶斯聚类法、K-最近邻参照聚类法、分级聚类法、基于概念的文本聚类等。
目录:中文提要1
外文提要2
目 录3
第一章 绪 论4
1.1 文本自动分类研究的背景和意义4
1.2 问题的描述6
1.3 国内外文本自动分类研究动态6
第二章 中文文本分类技术研究8
2.1 文本预处理8
2.1.1 文本半结构化8
2.1.2 自动分词8
2.1.3 特征选择8
2.2 分类模型9
2.2.1 贝叶斯(Naive Bayes)方法9
2.2.2 K-近邻(KNN)方法9
2.2.3 决策树(Decision Tree)分类10
2.2.4 基于投票的方法10
2.2.5 支持向量机(SVM)方法[17]11
2.3 分类性能评价11
第三章 基于支持向量机的中文文本分类12
3.1统计学习理论12
3.2 支持向量机原理14
3.3 支持向量机的特点16
第四章 基于支持向量机的中文文本分类器的实现17
4.1系统体系结构17
4.1.1文本训练模块设计18
4.1.2文本分类模块设计18
第五章 系统的性能测试19
5.1 开发环境和数据集19
5.2 测试结果及分析19
第六章 总结与展望21
6.1 全文总结21
6.2 进一步工作及展望21
附录(附图)22
参考文献25
致 谢27
参考文献:1.黄解军,潘和平等 《数据挖掘技术的应用研究》
计算机工程与应用 2003 No.2
2. M.A. Hearst. Untangling text data mining. In Proceedings of ACL''99. the37th Annual Meeting of the Association for Computational Linguistics,1999.
3.关毅.《基于统计的汉语语言模型研究》.博士学位论文,哈尔滨工业大学.1999
4.Yiming Yang. An evaluation of statistical approaches to text categorization.Journal of Information Retrieval, Vol 1, No. 112. 1999:6788
5.5. Mitchell T. Machine Learning. McGraw Hill. 1996
6.S. Cost and S. Saizberg. A Weighted Nearest Neighbor Algorithm for Learning with Symbolic Features. Machine Learning.1993: 5778
7.Quinlan J.R. Introduction of Decision Tree. Machine Leaming.1986:30-32
8.Yang Expert net work. effective and efficient learning from human
decisions in text categorization and retrieval. In Proceedings of he Fourth Annual Symposium on document Analysis and Information Retrival(SIGIR''94),1994:13-22
9.邵栋,周志华,陈兆乾.《模糊神经网络研究》.
计算机应用研究,1999, 16
10.Breiman L. Bias. Variance, and Arcing Classifiers. Department of Statistics, University of California at Berkeley. 1996
11.高洁,吉根林.《文本分类技术研究》
计算机应用研究,2004,3
12.秦进,陈笑蓉 等 《文本分类中的特征抽取》
计算机应用 2003 No.2
13.Andrew McCallum and Kamal Nigam: 《A comparison of event models for naive bayes text categorization》, AAAI-98 Workshop on "Learning for Text Categorization", 1998
14.李静梅,孙丽华,张巧荣,张春生 《一种文本处理中的朴素贝叶斯分类器 哈尔滨工程大学学报》 2002.3
15.李杨,曾海泉,刘庆华,胡运发 《基于knn的快速web文档分类》 小型微型
计算机系统 2004,4
16.边肇祺等_模式识别清华大学出版社.1998
17.Filip Mulier. 《Vapnik-Chervonenkis(VC) Learning Theory and Its Applications》. IEEE Trans. on Neural Networks. 1999,5.
18.萧嵘.《基于支持向量机的模式识别技术中若干问题的研究》.[学位论文],南京大学,2002。
19.C. J. C.Burges.《A tutorial on support vector machines for patern recognition》. Data Mining and Knowledge Discovery, 1998,2。
20.V. Vapnik著,张学工译。统计学习理论的本质。北京:清华大学出版社,1999
作者点评:本文讲述了采用文本挖掘技术来对有训练样本的中文文本进行分类的系统,设计和实现了基于支持向量机的中文文本挖掘系统。中文文本分类技术作为文本数据整理和数据组织的重要手段,主要研究如何自动根据文本特征,把待分类的文本归于预定义类别,是语料库建设、信息检索和信息过滤等技术研究的基础,在互联网、电子出版业、电子图书馆、电子邮分检,网络安全等方面都有十分广泛的应用。本文介绍了文本自动分类的究意义、定义和技术发展,讨论了中文文本自动分类的技术基础和关键技术,在理论上研究了文本分类为什么采用支持向量机方法,并详细地介绍基于支持向量机的中文文本分类系统的设计与实现。基于支持向量机的中文文本分类系统是笔者负责设计和开发的中文文本试验系统,该系统设计目标是为了探索和研究实现文本自动分类的新技术,并要求改善系统分类的性能:提高查全率和查准率。本文主要的研究内容如下:
1)论文第一章介绍了文本分类的背景和研究意义。
2)论文第二章介绍了文本分类的几种主要技术。
3)论文第三章介绍了文本分类技术中的一个重要方法:支持向量机(SVM),包括其背景和原理。
4)论文第四章介绍了文本分类系统的具体实现方案。
5)论文第五章以试验的形式证明了本系统的分类查准率和查全率都较高。