当前位置：网学 > 设计下载 > 其他类别 > 正文

KNN分类器的实现

来源：http://myeducs.cn 联系QQ：

作者：用户投稿来源：网络发布时间： 13/05/06

【编者按】：网学网其他类别为您提供KNN分类器的实现参考，解决您在KNN分类器的实现学习中工作中的难题，参考学习。

客服咨询，网学网竭诚为您服务，本站永久域名：myeducs.cn

目录

前言. 2

第1章绪论. 3

第1.1节研究背景. 3

第1.2节课题内容及意义. 3

第1.3节论文的组织结构. 4

第1.4节本章小结. 4

第2章分类算法的简介. 5

第2.1节 KNN算法. 5

第2.2节支持向量机. 6

第2.3节朴素贝叶斯算法. 7

第2.4节本章小结. 8

第3章文本分类技术简介. 9

第3.1节文本分类的定义. 9

第3.2节文本分类的系统模型. 9

第3.3节文本的向量空间模型. 10

第3.4节文档的预处理. 11

第3.5节降维技术. 12

3.5.1. 文档频次（DF）... 12

3.5.2. 信息增益（Information Gain，IG）... 12

3.5.3. 互信息（Mutual information，MI）... 13

3.5.4. 开方拟和X²（CHI）... 13

3.5.5. 相对熵... 13

第3.6节权重计算方法. 14

3.6.1. 布尔权重（Boolean weighting）... 14

3.6.2. 词频权重（Word frequency weighting）... 15

3.6.3. tf *idf 权重（tf*idf weighting）... 15

3.6.4. tfc 权重（tfc-weighting）... 15

3.6.5. ltc 权重（ltc-weighting）... 16

3.6.6. 熵权重（Entropy weighting）... 16

第3.7节本章小结. 16

第4章 KNN分类器的设计与实现. 17

第4.1节系统总流程. 17

第4.2节文档的预处理. 18

4.2.1. 文本读取... 18

4.2.2. 去停用词... 18

4.2.3. 权重计算... 19

4.2.4. 文档的特征向量表示... 19

第4.3节 KNN分类器的实现. 20

4.3.1. 重新描述训练文档向量... 20

4.3.2. 计算文档的相似度... 21

4.3.3. 获取K个最相似的训练文档... 22

4.3.4. 判断文档所属的类别... 23

第4.4节本章小结. 23

第5章实验和数据分析. 24

第5.1节实验环境. 24

第5.2节实验数据简介. 24

5.2.1. 文件格式... 24

5.2.2. 文档内部标记... 24

5.2.3. 路透社语料体系... 26

第5.3节实验评估方法. 26

5.3.1. 准确率... 27

5.3.2. 召回率... 27

5.3.3. F1值... 27

第5.4节实验结果分析. 27

第5.5节本章小结. 28

第6章总结与展望. 29

第6.1节总结. 29

第6.2节展望. 29

参考文献. 30

致谢. 31

KNN分类器的实现

苏州大学应用技术学院 06计算机卞媛媛

2010年4月

【摘要】：随着网络信息的迅猛发展，信息处理已经成为人们获取有用信息不可缺少的工具，文本自动分类是信息处理的重要研究方向，它是指在给定的分类体系下，让计算机根据文本的内容自动判别文本的过程。为了提高分类性能，本文提出了英文文本特征提取方法和K最近邻居分类算法。实验表明，该方法训练数据规模大大减少，训练效率较高，具有较好的实验结果，并证明了该方法的有效性。

关键词: 文本自动分类，KNN算法，特征选择

[Abstract] : With the rapid development of network information, information processing has become indispensable for people to obtain useful information tool for automatic text classification is an important research direction for information processing, which refers to a given classification system, let the computer automatically according to the contents of the text determine the course of the text. In order to improve classification performance, this paper presents the English text feature extraction method and K-nearest neighbor classification algorithm. Experiments show that this method greatly reduced the size of training data, training more efficient, with good results and proved the effectiveness of the method。

Key words: Automatic Text Categorization；KNN algorithm；Feature Selection

前言

九十年代以来，Internet以惊人的速度发展起来，它容纳了海量的各种类型的原始信息，包括文本信息、声音信息、图像信息等等。如何在浩若烟海而又纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一大目标。基于人工智能技术的文本分类系统能依据文本的语义将大量的文本自动分门别类，从而更好地帮助人们把握文本信息。近年来，文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合，有效地提高了信息服务的质量。

本文主要探讨了空间向量模型下的一个KNN文本分类系统的实现。第1章为绪论，主要介绍了文本分类系统的背景以及研究本课题的内容及意义；第2章为背景知识，介绍了文本分类的算法，主要介绍了KNN算法、支持向量机、朴素贝叶斯算法；第3章详细介绍了文本分类用到的技术；第4章探讨了KNN分类器的设计与实现；第5章对实验与分类的数据进行了分析，从而判断是否提高文本分类的准确率与召回率；第6章进行了总结，并对未来进行展望。

第1章绪论

第1.1节研究背景

自上个世纪80年代以来，信息化的浪潮席卷全球，信息技术迅速地渗透到社会经济的各个领域。信息的来源是多方面的，比如报纸、电视、广播等等。近几年来，随着Internet的普及和网络技术的不断完善，Internet已经成为了全球最庞大最丰富的信息资源库。由于Internet的开放性，各类信息都能在第一时间发布在Internet上。

然而，Internet的这种开放性也导致了Internet上信息的杂乱性和冗余性。当我们在网站寻找自己所需要的信息时，如果网页毫无有序的放在一起，没有类别供我们查找，会使我们很难找到自己所需的信息，人们无法很有效地利用海量的资源，这增加了对于快速、自动文本分类的迫切需求；另外激增的信息资源又为基于机器学习的文本分类方法准备了充分的资源。

本站发布的计算机毕业设计均是完整无错的全套作品，包含开题报告+程序+论文+源代码+翻译+答辩稿PPT

本文选自计算机毕业设计http://myeducs.cn
论文文章部分只是部分简介，如需了解更多详情请咨询本站客服！ QQ交谈 QQ3710167