鉴于大家对数据库十分关注,我们编辑小组在此为大家搜集整理了“ 一种基于高频词和段落匹配的论文抄袭检测系统设计 ”一文,供大家参考学习
一、引言近年来,随着学术论文写作风潮盛行,论文剽窃抄袭现象也日益严重,成为困扰学术界的重大问题之一。而在论文抄袭的检测工作上,人工操作既耗时费力又有其局限性。因此开发一个具有较高效率和准确率的抄袭检测系统,在当前背景下有着重要的现实意义和应用价值。
二、系统构架及数据库建立(一)设计思路通过对前人相关研究的分析,可以发现监测系统存在四个比较明显的问题:1.不能人为控制检测的精确度。2.检测效率普遍偏低。3.对论文的分类不科学。4.检测范围仅限于现有的数据库或图书库。(二)系统构架在前面分析的基础上,我们设计了一套新型论文抄袭检测系统。该系统在一定程度上改善了上述四个问题。该系统的运作流程依次包括三个部分:1.搜集论文形成论文集。这里论文主要来自两个方面:一是从现有数据库中提取论文,二是利用网络抓扒技术对网页进行抓扒。2.建立新的数据库。具体建立过程见下文(三)3.对待测论文进行检测。具体匹配过程见下文四(三)数据库建立针对研究中发现的问题,我们提出了一套全新的数据库建立思路。数据库建立的步骤如下:1.按预处理得到的高频词对论文进行分类,将前20个高频词完全相同的文章归于一类。这样形成很多小的数据块,置于数据库最底层。2.对底层数据块按二叉树的方法进行归类。若某两个数据块有19个高频词相同,则将其归于一类,置于数据库的倒数第二层,作为两个数据块的父节点。以此类推,直至最后所有的高频词归于一类,置于数据库的最高层。
三、对论文抄袭的检测这里假设一篇论文的前20个高频词可大致反映该论文的中心内容,而利用高频词建立数据库的目的就是使新的待测论文进入数据库时能够迅速找到最有可能与其匹配的论文进行匹配,从而提高抄袭检测的效率和精确度。该系统对论文抄袭进行检测的过程分为两个阶段:模糊匹配和精细匹配。(一)模糊匹配首先进行模糊匹配的目的是找出最有可能成为待测论文抄袭来源的论文的范围,避免盲目检测。1.采用词频统计技术对待测的论文进行预处理,提取该论文的前20个高频词作为其标记。2.将待测论文的标记与数据库中已建起的索引二叉树进行自上而下的匹配,按照“进入最佳匹配数据块”的原则进入数据库的下一层。若标记与下一层数据块冲突而无法进入,则返回上一层与除本数据块之外的其他数据块进行匹配。3.当标记进入数据库的最底层的某一数据块时,便将待测论文调出与该数据块中的每篇论文逐一进行精细匹配。(具体匹配算法见下文二)4.若精细匹配成功,则判定待测论文为抄袭;若精细匹配失败,但用户认为该论文仍有抄袭可能时,则根据用户需要继续进行检测。继续检测的基本思想是:将待测论文所属的数据块范围向上扩大两层或更多(根据用户对精确度的要求而定),重复前面的匹配步骤。
(二)精细匹配在被测论文与底层数据块中的每篇论文进行精细匹配时,以段落语句抄袭为主要检测内容。段落抄袭的检测算法如下:(1)建立一个同义词词库,并按照同义词的个数建立表。(2)将底层数据块中的每篇论文按照段落分块,利用hash函数计算每个段落的hash值,产生记录文本信息的三元组。其中h是利用文本块计算出的hash值,r是文本块所属论文编号,l为文本块的段落号。同时把段落的每个句子中含同义词最多的词用同义词替换,建立新的三元组,与原三元组相比只改变其hash值。(3)按照步骤(2),建立属于待测论文的三元组。将待测论文的三元组与底层数据块中每篇论文的三元组进行相似度比较,若达到一定标准a,则将相互比较的三元组所在段落产生的数字指纹进行比较,确定相似度b,则待测论文引用被比较论文的可能性p=a*b。若p超过一定值z,则记录被比较的三元组的段落、文章,。(4)从记录的文档中删除待测论文中已注明是引用的文档和所含段落信息。(5)最后确定待测论文中未注明的引用占全文的比重,结合待测论文所属领域的抄袭判定标准,最终判定该论文是否抄袭。