摘 要:本文首先介绍了Internet的发展状况,指出Internet是一个庞大、杂乱、瞬息万变的信息源泉,仅仅依靠网页上的超文本链用户是无法方便、快捷地找到自己所需的信息的,提供WWW信息导航服务的搜索引擎是解决这个问题的一个途径。在介绍了传统的Spider式搜索引擎和基于人工分类的目录式搜索引擎的特点并对它们作了比较之后,指出支持分类目录是Spider式搜索引擎发展的趋势,而应用文档自动分类领域的研究对收集的网页自动分类,实现对分类目录的支持是一种可行的方法。然后,本文介绍了天网搜索引擎的现状,分析了它的特点,说明要进一步发展天网系统,应当采用文档自动分类技术支持分类目录。
接下来,本文介绍了文档自动分类的意义和算法的分类,然后分别介绍了m-ary分类系统和Independent Binary分类系统常用的算法和各个算法的特点,接着介绍了从m-ary分类系统转换到Binary Independent分类系统常用的三种算法以及这两种分类系统的性能评价指标,然后分析了特征项选取对分类系统的影响,介绍了常用的五种特征项选取的方法。
结合现有的天网搜索引擎,本文提出了天网系统支持分类目录的设计方案,详细介绍了自动分类系统的实现,说明了分类系统选用的分类算法的是KNN算法,选用的评价特征项重要性的指标是CHI统计量,选用的转换算法是Scut算法,然后讨论了自动分类系统在实现过程中遇到的问题以及解决的办法:1 使用两个文件描述分类目录,用Begin——End结构表示类之间的层次结构;2 通过限制文档向量最大分量的值显著地提高了系统分类的性能指标;3 使用稀疏矩阵在程序中表示文档向量,极大地缩短了分类响应时间,节省了占用的内存空间。在说明了分类系统使用的分类目录、训练集和测试集之后,本文给出了系统的测试数据。
最后,本文详细介绍了将自动分类系统集成在现有的天网系统中的方法,讨论了对天网系统各个子系统的改造。
关键词:文档自动分类、搜索引擎、KNN
第一章 课题研究背景
Internet是一个由不同类型和规模的独立自主运行和管理的计算机网络组成的全球范围的计算机网络,它的前身是1969年美国国防部高级研究计划署组建的实验性网络ARPANET,随着计算机网络和通信技术的发展,各个国家和组织的网络的不断加入,Internet已成为一个规模巨大、自治性强、发展变化快、用户访问频繁的全球最大的国际互联网络,截至1996年7月,Internet已连接了134346个网络,入网的国家和地区超过150个,主机1228万台,用户人数以亿计。
Internet又是一个无穷无尽的信息源泉,它已深入到人们生产、生活的各个领域,向人们提供着巨大的并且还在不断增长的信息资源和服务,越来越多的公司、企业通过网页宣传自己,越来越多的科研机关和学校通过网页交流科研成果,越来越多的组织和个人拥有了自己的主页,越来越多的报刊、杂志加入了Internet的大家庭,足不出户而知天下事已不再是神话。据不完全统计,1996年Internet上的网页数已达到1900万,时至今日,这个数目决不会少于4亿。
为了让用户能够在如此庞大、杂乱、瞬息万变的信息海洋中,方便、快捷地找到自己感兴趣的信息,而不是茫然不知所措,仅靠网页上的超文本链是远远不够的,提供WWW信息导航服务的搜索引擎(Search Engine)是解决这个问题的一个途径。传统的Spider式搜索引擎通过被称为Spider的程序自动地在网上循着超文本链递归地访问、收集WWW网页,分析页面的内容,生成索引和摘要,并向用户提供WWW查询页面,根据用户的查询请求在索引库中查找相关信息在网上的位置,最后将查询结果按照相关度排序后返回,帮助用户尽快地找到所需的信息,给用户带来了极大的便利。这类搜索引擎的代表有Infoseek和Alta Vista。基于人工分类的目录式搜索引擎稍后出现,它在人工的参与下建立分类目录,对收集的网页按主题或者学科进行分类,编写摘要,用户可以沿着分类目录的层次结构,进入自己感兴趣的主题,进而找到所需的信息。这类搜索引擎的代表是Yahoo和Sohoo。