【网学提醒】:本文主要为网上学习者提供WPS程序资源中多国文字一致性智能判定的研究与实现,希望对需要WPS程序资源中多国文字一致性智能判定的研究与实现网友有所帮助,学习一下吧!
资料包括: 论文(40页20587字) 任务书 开题报告
说明:摘 要:本文针对WPS多国语言版本的语言一致性测试中遇到的问题进行了研究,定义了多国语言一致性判定的概念,将多国语言的一致性分为三个级别:字符、词、语义。在这三个级别中,根据Unicode编码规则结合各种语言独有的多字节字符集的编码规则实现了字符级别一致性的判定;在字符一致性的基础上,利用分词技术将文本分词,然后通过查找词典的方法实现了词级别的一致性判定;在分词的基础上,建立一个N-Gram统计语言模型,将文本分词后与该模型进行匹配实现了语义级别的一致性判定。
最后,我们根据本文提出的方法实现了一个WPS的中、英文一致性判定的自动化工具。对于英文,本文采用了基于词典查找的拼写检查方法使一致性判定达到了词的级别;对于中文,本文采用统计语言模型进行一致性检查使一致性判定达到了语义级别。利用这个工具在WPS的三个项目中共找出了有效的英文错误33处、中文错误15处。试验结果证明了本文的方法是可行的,统计语言模型是能够应用到多国文字一致性判定中去的。
关键词:一致性判定,n-gram,统计语言模型,分词,多国文字
The research and realization that multilateral languages consistency intelligence judgment for the WPS program Source
Abstract :The paper researches the problems in the multi-language conformance testing of WPS, and defines the consistency judgment that includes three levers: character, word, semantic. The rule of coding Unicode and the character set of the given language is used to realize the character lever. Then it segments the sentence to words, and compares the words with standard dictionary to realize the word lever. Thirdly the paper builds an N-gram language model segmentation-based, and use this model to realize the semantic lever.
Finally, we developed a tool for English and Chinese consistency judgment by the method in this paper in WPS. For English, there adopted the method of looking up dictionary based spelling to realize the word consistency in sentences. For Chinese, there used the Statistical language model, which could express the frequency of word pair, to realize the semantic consistency in sentences. Three projects of WPS are examined using this tool. As a result it finds 33 errors in English edition, 15 errors in Chinese edition. It proves that the method in this paper is feasible and the Statistical language model is useful in the multilateral languages consistency judgment.
Key Words:Consistency Judgment,N-Gram,Language Model, Participle, Multilateral Languages
1. 绪论
1.1 课题的背景及目的
随着国际合作的不断加强,软件国际化发展的趋势愈来愈明显,软件巨头如:微软、谷歌、雅虎等,很对年前就已经发布了他们的多语言版本。如今,历经了18年风风雨雨的WPS OFFICE已不满足于国内市场的争夺,开始在日本、东南亚等地不断的开拓市场,渐渐的走上了软件国际化的发展道路。到目前为之,WPS已经成功的推出了中、英、日等不同语言版本,而且随着时间的推移将会有越来越多的语言版本产生。
在WPS的开发与测试当中,每更新一次资源文件就要进行一次语言一致性的测试。根据统计,在WPS的三个项目(文字、演示、表格)中共有资源字符串10000多个,如果让手工检查需要3-4个小时的工作量,按照每一个月资源文件需要更新三次来计算,需要9-12个小时/月的工作量。这样,三个语言版本就是27-36个小时/月的工作量,而且随着以后语言版本的不断增加,这个数据还将不断的上升,这样的工作是非常的枯燥和乏味的,给测试工作人员带来了极大的不方便。因此,我们需要一个工具来代替人工来进行一致性的检查工作,使多国文字一致性的检查测试工作自动化起来。
目录:1.绪论1
1.1 课题的背景及目的1
1.2 国内外研究状况1
1.3 课题研究方法3
1.4 论文研究内容3
2.字符编码简介5
2.1 从ASCII到Unicode5
2.2Unicode、UCS和UTF6
2.3 中日韩统一表意文字6
2.3.1. CJK的发展6
2.3.2.字源分离原则7
2.3.3. CJK编码区间8
2.4 Unicode与GB2312在本文中的作用8
3.分词介绍及语言统计模型10
3.1 中文分词简介10
3.1.1 最大正向匹配法11
3.1.2 逆向最大匹配法12
3.1.3 最少切分法12
3.1.4 双向匹配法12
3.1.5 中文分词中的难题13
3.2 统计语言模型14
3.2.1 统计语言模型简史14
3.2.2 统计语言模型的发展14
3.2.3 建立一个简单的统计语言模型15
3.3 N_Gram统计语言模型16
3.3.1 N-Gram语言模型概述16
3.3.2 建立一个BiGram模型16
3.3.3 N-Gram的数据稀疏问题18
3.3.4 N-Gram的数据平滑处理18
4.WPS
程序资源中多国语言一致性智能判定的实现22
4.1 提取资源字符串22
4.2 英文一致性判定的实现23
4.2.1 英文字符一致性判定的实现23
4.2.2 英文词、语法一致性的判定的实现24
4.3 中文一致性判定的实现27
4.3.1 中文字符一致性判定的实现27
4.3.2 中文词、语法一致性的判定的实现27
4.4 实验结果与分析29
结论与展望32
致 谢34
参考文献35
参考文献:Dr.International(美).国际化软件开发(第2版)(M).机械工业出版社.
黄昌宁.中文信息处理的主流技术是什么(D).北京.清华大学自动控制系.
马金山,张宇,刘挺,李生等.利用三元模型及依存分析查找中文文本错误(J).中文信息学报.2001.15(3).
骆卫华,罗振声,龚小谨.中文文本自动校对的语义级查错研究(D).清华大学中文系.2002.6.
黄晓宏.汉语文本自动查错和确认纠错系统的研究(D).清华大学
计算机系.1996.
张民,李生,赵铁军.大规模汉语语料库中任意的n-gram统计算法及知识获取方法(D).1997.
常宝宝.N-gram和数据平滑(C).北京大学计算语言学研究所.
李江波,周强,陈祖舜.汉语词典快速
查询算法研究(D).清华大学智能技术与国家重点实验室.
王志勇,耿亦兵.统计语言模型在文本信息检索中的应用(D).第二军医大学图书馆.上海.200433.
Mays,Eric,Damerau. Context-based spelling correction Information Processing and Management(D). 1991,vol.27,no.5,pp517-522.
R.Mittion. Spellchecking by computer. journal of simplified Spelling Society(D).20-96/1 pp4~11.
K. Kukich Techniques for Automatically Correcting Words in Text. ACM computer Surveys(D). 1992,24(4).377~439.
吴根清. 统计语言模型研究及其应用(D).清华大学
计算机科学与技术系.2004.
张瑞强,王作英,张建平.带拼音纠错的汉语音字转换技术(J).清华大学学报(自然科学版). 1997.37. 9~12.
[15] 潘凌云, 杨长生. 拼音、汉字计算机自动转换系统(J).
计算机学报.1990.13(4).271~275.
[16] 中华人民共和国国家标准GB2312-80.信息交换用汉字编码字符集基本集(S).1981.
[17] 武健. 汉语语音识别中统计语言模型的构建及其应用(D).北京.清华大学.2000.
[18] 倪小东,李人厚,余克艰.适用于信息设备的汉字输入法研究(J).中文信息学报.2001.15(5). 58~64.
[19] 中华人民共和国国家语委规范GF3001.GB13000.1字符集汉字笔顺规范(S).上海.上海教育出版社.1999.
[20] 张国亮,徐明星,李净,等.语音识别中基于双层词法树的跨词
搜索算法(J).清华大学学报(自然科学版). 2003.43(7).981~984.
[21] 金凌,吴文虎,郑方,吴根清.距离加权统计语言模型及其应用(D).清华大学
计算机科学与技术系智能技术与系统国家重点实验室.语音技术中心.北京.100084.
[22] T. R. Niesler , P. C. Woddland. Variable2length category n2gram language models(D). Computer Speech and Language .(13) .1999 .99 – 124.
作者点评:1、结论
本文主要研究了多国语言一致性的智能判定,并实现了一个WPS
程序资源文件中的中、英文一致性智能判定的工具,该工具已经加入到WPS自动化测试平台当中,在近来的测试工作当中表现的是非常优秀的。下面对本文所作的工作进行一些总结:
(1)实现了一个具有良好的扩展性能的DFM文件解析器,通过该解析器可以获得资源文件中所保存的控件的所有属性信息,以及容器控件所包含的所有子控件,该解析器可以作为以后基于WPS资源文件的基础。
(2)合理的利用了Unicode编码规则结合各国语言所独有的编码规则实现字符级别一致性的判定。
(3)总结了大量的英文文本处理的规则,使英文拼写检查得以完美实现。
(4)实现双数组Trie算法,通过该算法建立起的中文词典其查找速度为线性的,使得中文分词的速度最优化,极大的提高了系统的运行速度。
(5)创新性的提出了利用统计语言模型来实现语义一致性的判定,并实现了中文的N-Gram统计语言模型。为以后不断增加的WPS多国语言版本的测试工具的开发指明研究的方向。