【网学提醒】:本文主要为网上学习者提供基于Citation-KNN的语义隐含主题词自动抽取方法,希望对需要基于Citation-KNN的语义隐含主题词自动抽取方法网友有所帮助,学习一下吧!
资料包括: 论文(9页4591字)
说明:摘 要:现有的关键词抽取技术仅仅是抽取出现在正文中的词汇,不能够抽取语义上隐含的主题。语义隐含主题的抽取是文本挖掘技术的难点。众所周知,KNN方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现。本文以KNN算法为基础,提出基于Citation-KNN的语义隐含主题词自动抽取方法。实验结果表明该方法在进行语义隐含主题词抽取任务上的有效性。
关键词:关键词抽取;隐含语义主题词;Citation-KNN;文本挖掘
Automatic Implicit Semantic Subject Extraction Based on Citation-KNN
Abstract: Currently, the keywords extraction method can only extract words appeared in the article and it cannot extract the implicit semantic subject (ISS). It is a difficult work to extract implicit subject in an article in the task of text mining. As we all know, KNN method is a classic method in machine learning field and is also well used in many other fields. In this paper, we proposed an automatic ISS extraction method based on Citation-KNN method which transformed from the KNN method. Experimental results show that the proposed method can not only improve the precision and recall of keyword extraction, but also extract implicit subject efficiently.
Key Words: Automatic Keyword Extraction; Implicit Semantic Subject; Citation-KNN; Text Mining
1 引 言
关键词是最能反映文章主题或内容的词汇,是为了满足文献标引或检索工作的需要而从文章中萃取出的、表示全文主题内容信息条目的单词、词组或术语。在文献情报领域,关键词抽取是一项困难的任务。首先,关键词抽取是一项需要高度概括、分析和创造的活动,需要标引人员具有较高的专业知识和标引经验。其次,为了准确描述文本内容,标引人员通常会创造一些由多个词按照一定规则连接起来的组合词组。这些组合词在文本中可能很少出现,甚至不出现。另外,由于经验和知识背景不同,在标引同一篇文本时,不同的标引人员会给出不同的关键词集合。这突出反映在作者给出的关键词与专业标引人员给出的关键词通常存在很大差异。
关键词自动抽取能够解决上面的第三个问题,但对于前面两个问题所起的作用很小。这是因为目前用于自然语言处理的各种机器学习方法,还不能真正理解文本内容,只能通过大量的词或词组出现的频度、句法规则等信息进行统计和学习。但是,在许多应用领域,基于大规模数据集上的机器学习方法,特别是基于统计的机器学习,通常比完全采用人工方法效果更好、更稳定,例如文本分类、OCR识别、词义排歧、信息检索等。
H. P. Luhn在20世纪50年代末首先开展自动标引试验 (Luhn 1957, Luhn 1958) ,而在1963年,美国Chemical Abstracts从第58卷起,就开始采用电子计算机编制关键词索引,提供快速检索文献资料主题的途径。纯粹的统计方法最早也最常被应用于关键词自动抽取 (Edmundson & Oswald 1959, Edmundson 1969, Chien 1997);20世纪70年代初,Lois L. Earl开始采用句法分析等语言学方法 (Lois 1970);70年代中期,Salton等将机器学习技术引入关键词自动抽取中 (Salton, Wong & Yang 1975);20世纪90年代末,Turney将遗传算法 (Turney 1999, Turney 2000)、Frank将Bayes方法引入关键词自动抽取 (Frank, Paynter & Witten, et al 1999)。近年来关键词自动抽取的研究趋于活跃,2001年,Anjewierden与Kabel提出基于本体的自动标引方法 (Anjewierden & Kabel 2001);2003年,Tomokiyo与Hurst提出了基于语言模型的关键词提取方法 (Tomokiyo & Hurst 2003),Hulth利用Bagging算法进行了基于集成学习的关键词抽取 (Hulth 2003);2004年,李素建提出基于最大熵模型的关键词提取方法 (李素建, 王厚峰, 俞士汶等,2004);2007年,Ercan G.与Cicekli I.提出基于词汇链的自动标引方法 (Ercan & Cicekli 2007)。
目录:1 引 言
2 基于Citation-KNN的语义隐含主题词自动抽取算法
3 实验结果分析与讨论
4 小 结
参考文献:Anjewierden A, Kabel S. 2001. Automatic Indexing of Documents with Ontologies. In: Proceedings of the 13th Belgian/Dutch Conference on Artificial Intelligence (BNAIC-01), Amsterdam, Neteherlands. 23~30.
Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. New York: Association for Computing Machine (ACM) Press, 27-30.
Chien LF. 1997. PAT-tree-based Keyword Extraction for Chinese Information Retrieval. In: Proceedings of the ACM SIGIR International Conference on Information Retrieval, Philadelphia, USA: ACM Press, 50~59
Cover TM, Hart PE. 1968. Nearest neighbor pattern classification. IEEE Transactions on Information Theory, IT-13 : 21~27
Edmundson H P, Oswald V A. 1959. Automatic Indexing and Abstracting of the Contents of Documents. Planning Research Corp, Document PRC R-126, ASTIA AD No. 231606, Los Angeles. 1~142.
Edmundson H P. 1969. New Methods in Automatic Abstracting Extracting. Journal of the Association for Computing Machinery.16(2): 264~285.
Ercan G, Cicekli I. 2007. Using Lexical Chains for Keyword Extraction. Information Processing and Management, 43(6): 1705~1714.
Frank E, Paynter GW, Witten IH, et al.. 1999. Domain-specific keyphrase extraction. In: Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence (IJCAI-99), California: Morgan Kaufmann, 668~673
Hulth A. 2003. Improved Automatic Keyword Extraction Given More Linguistic Knowledge. In: Proceedings of the 2003 Conference on Emprical Methods in Natural Language Processing, Sapporo, Japan, 216~223.
Lois L E. 1970. Experiments in Automatic Indexing and Extracting. Information Storage and Retrieval, 6: 313~334.
Luhn H P. 1957. A Statistical Approach to Mechanized Encoding and Searching of Literary Information. IBM Journal of Research and Development, 1(4): 309~317
Luhn H P. 1958. The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development. 2(2): 159~165.
Salton G, Wong A, Yang C S. 1975. A Vector Space Model for Automatic Indexing. Communications of ACM, 18(11): 613~620.
Tan P, Steinbach M, Kumar V. 2006. Introduction to Data Mining. Boston: Addison-Wesley, 225.
Tomokiyo T, Hurst M. 2003. A language Model Approach to Keyphrase Extraction. In: Proceedings of the ACL Workshop on Multiword Expressions: Analysis, Acquisition & Treatment, Sapporo, Japan, 33~40.
Turney P D. 1999. Learning to Extract Keyphrases from Text. NRC Technical Report ERB-1057, National Research Council, Canada. 1~43.
Turney PD. 1997. Extraction of Keyphrase from Text: Evaluation of Four Algorithms. Techial Repor ERB-1051, National Research Council, Institute for Information Technology.
Turney PD. 2000. Learning algorithms for keyphrase extraction. Information Retrieval. 2:303~336
Wang J, Zucker J D. 2000. Solving the Multiple-instance Problem: A Lazy Learning Approach. In: Proceedings of 17th International Conference on Machine Learning (ICML2000). San Francisco: Morgan Kaufmann Publishers, 1119-1125.
Yang Y, Liu X. 1999. A Re-examination of Text Categorization Methods. In: Proceedings of 22nd Annual International ACMSIGIR Conference on Research and Development in Information Retrieval (SIGIR’99), Berkeley, CA, USA, 42~49.
Zhang CZ, Su XN, Zhou DM. 2008. Document Clustering Using Sample Weighting. In: He YX, Xiao GZ, Sun MS eds. Recent Advance of Chinese Computing Technologies Singapore: Chinese and Oriental Languages Information Processing Society, 3: 260-265.
李素建 王厚峰 俞士汶 辛乘胜,2004,关键词自动标引的最大熵模型应用研究,
计算机学报,27(9):1192~1197。
作者点评:本文以KNN算法为基础,提出基于Citation-KNN的隐含主题词自动抽取方法。基于Citation-KNN的隐含主题词自动抽取方法是一种懒惰学习算法(Lazy Learning),它利用文本集中与待标引记录相似的文档的关键词,作为待标引记录隐含主题词自动抽取的依据。根据相似文档本身的特征可以进行基于加权方式的Citation-KNN的隐含主题词自动抽取。实验结果表明该方法在进行隐含主题词自动抽取这一任务时的有效性。
基于Citation-KNN的隐含主题词自动抽取方法存在的问题是,隐含主题词自动抽取的效果强烈依赖于数据集的规模。只有当数据集规模达足够大的情况下,才能充分挖掘出与待标记录内容相似的记录,这样可以保证隐含主题词自动抽取的可靠性。另外,文本间的相似度计算也是一个关键问题,相似度计算的质量对隐含主题词自动抽取的效果有重要影响。
下一步的工作主要包括:获取大量带有关键词的数据集,提高基于Citation-KNN的隐含主题词自动抽取方法的可靠性;提出可加可靠的隐含主题词自动抽取的评价方法;探索计算文本间相似度更加可靠的方法。