文档自动分类技术及其在搜索引擎中应用的研究

作者： admin 发布时间： 13/09/05

【网学提醒】：本文主要为网上学习者提供文档自动分类技术及其在搜索引擎中应用的研究，希望对需要文档自动分类技术及其在搜索引擎中应用的研究网友有所帮助，学习一下吧!

资料包括： 论文(37页23643字)
说明：

摘要：本文首先介绍了Internet的发展状况，指出Internet是一个庞大、杂乱、瞬息万变的信息源泉，仅仅依靠网页上的超文本链用户是无法方便、快捷地找到自己所需的信息的，提供WWW信息导航服务的搜索引擎是解决这个问题的一个途径。在介绍了传统的Spider式搜索引擎和基于人工分类的目录式搜索引擎的特点并对它们作了比较之后，指出支持分类目录是Spider式搜索引擎发展的趋势，而应用文档自动分类领域的研究对收集的网页自动分类，实现对分类目录的支持是一种可行的方法。然后，本文介绍了天网搜索引擎的现状，分析了它的特点，说明要进一步发展天网系统，应当采用文档自动分类技术支持分类目录。
接下来，本文介绍了文档自动分类的意义和算法的分类，然后分别介绍了m-ary分类系统和Independent Binary分类系统常用的算法和各个算法的特点，接着介绍了从m-ary分类系统转换到Binary Independent分类系统常用的三种算法以及这两种分类系统的性能评价指标，然后分析了特征项选取对分类系统的影响，介绍了常用的五种特征项选取的方法。
结合现有的天网搜索引擎，本文提出了天网系统支持分类目录的设计方案，详细介绍了自动分类系统的实现，说明了分类系统选用的分类算法的是KNN算法，选用的评价特征项重要性的指标是CHI统计量，选用的转换算法是Scut算法，然后讨论了自动分类系统在实现过程中遇到的问题以及解决的办法：1 使用两个文件描述分类目录，用Begin——End结构表示类之间的层次结构；2 通过限制文档向量最大分量的值显著地提高了系统分类的性能指标；3 使用稀疏矩阵在程序中表示文档向量，极大地缩短了分类响应时间，节省了占用的内存空间。在说明了分类系统使用的分类目录、训练集和测试集之后，本文给出了系统的测试数据。
最后，本文详细介绍了将自动分类系统集成在现有的天网系统中的方法，讨论了对天网系统各个子系统的改造。

关键词：文档自动分类、搜索引擎、KNN

第一章课题研究背景
Internet是一个由不同类型和规模的独立自主运行和管理的计算机网络组成的全球范围的计算机网络，它的前身是1969年美国国防部高级研究计划署组建的实验性网络ARPANET，随着计算机网络和通信技术的发展，各个国家和组织的网络的不断加入，Internet已成为一个规模巨大、自治性强、发展变化快、用户访问频繁的全球最大的国际互联网络，截至1996年7月，Internet已连接了134346个网络，入网的国家和地区超过150个，主机1228万台，用户人数以亿计。
Internet又是一个无穷无尽的信息源泉，它已深入到人们生产、生活的各个领域，向人们提供着巨大的并且还在不断增长的信息资源和服务，越来越多的公司、企业通过网页宣传自己，越来越多的科研机关和学校通过网页交流科研成果，越来越多的组织和个人拥有了自己的主页，越来越多的报刊、杂志加入了Internet的大家庭，足不出户而知天下事已不再是神话。据不完全统计，1996年Internet上的网页数已达到1900万，时至今日，这个数目决不会少于4亿。
为了让用户能够在如此庞大、杂乱、瞬息万变的信息海洋中，方便、快捷地找到自己感兴趣的信息，而不是茫然不知所措，仅靠网页上的超文本链是远远不够的，提供WWW信息导航服务的搜索引擎（Search Engine）是解决这个问题的一个途径。传统的Spider式搜索引擎通过被称为Spider的程序自动地在网上循着超文本链递归地访问、收集WWW网页，分析页面的内容，生成索引和摘要，并向用户提供WWW查询页面，根据用户的查询请求在索引库中查找相关信息在网上的位置，最后将查询结果按照相关度排序后返回，帮助用户尽快地找到所需的信息，给用户带来了极大的便利。这类搜索引擎的代表有Infoseek和Alta Vista。基于人工分类的目录式搜索引擎稍后出现，它在人工的参与下建立分类目录，对收集的网页按主题或者学科进行分类，编写摘要，用户可以沿着分类目录的层次结构，进入自己感兴趣的主题，进而找到所需的信息。这类搜索引擎的代表是Yahoo和Sohoo。

目录：
目录2
第一章课题研究背景3
第二章文档自动分类的主要算法和性能评价6
§2．1 文档自动分类的主要算法6
§2．1．1 算法的分类6
§2．1．2 文档的向量空间模型7
§2．1．3 Independent Binary分类系统8
§2．1．4 m-ary分类系统10
§2．2 分类系统的性能评价13
§2．2．1 m-ary分类系统的性能评价13
§2．2．2 Independent Binary分类系统的性能评价15
§2．3 特征项的选取17
第三章自动分类系统的实现及其在天网系统中的应用21
§3．1 支持分类目录的天网系统的设计21
§3．2 自动分类系统的实现22
§3．2．1 自动分类算法的选用22
§3．2．2 对中文的支持22
§3．2．3自动分类系统的实现23
§3．2．4 自动分类系统的测试27
§3．3 现有天网系统各子系统的改造31
§3．3．1 收集分析子系统的改造31
§3．3．2 WWW查询页面和查询处理程序的改造32
第四章展望33
参考书目35
附录36
参考文献：
Marc Krellenstein, “The added value of classification intelligence”, http://www.infonortics.com/searchengines/boston98.html ,4 ,1998

Yiming Yang, “Sampling Strategies and Learning Efficiency In Text Categorization”, AAAI Spring Symposium on Machine Learning in Information Access,1996:88-95

周利民等，“天网：一个中英文环球搜索引擎”，软件学报，Vol.8增刊，1997

T. Mitchell, Machine Learning, McGraw Hill, 1997

Yiming Yang, “Noise Reduction in a statistical Approach to Text”, ACM SIGIR Conference on Research and Development in Information Retrieveal(SIGIR’95) 1995:256-263

黄菁萱，吴立德,“基于向量空间模型的文档分类系统”，模式识别和人工智能，1998年11卷第二期

Yiming Yang , “An Evaluation of Statistical Approaches to Text Catogrization”, Information Retrieval Journal, May, 1999

Yiming Yang, Jan O. Pedersen, “A comparative Study on Feature Selection in Text Categorization”, Proceedings of the Fourteenth International Conference on Machine Learning(ICML’97), 1997

《中国图书馆图书分类法》编委会，“中国分类主题词表（第一卷）”，1994

中华人民共和国国家标准学科分类与代码 GB/T 13745-92

上一篇资讯：基于改进随机森林的故障诊断方法研究

下一篇资讯： ID3算法在电信客户流失中的应用

文档自动分类技术及其在搜索引擎中应用的研究

相关资讯

网学推荐

免费论文

原创论文

文章排行榜

文档自动分类技术及其在搜索引擎中应用的研究

相关资讯

相关文章

相关专题

网学推荐

免费论文

原创论文

文章排行榜