当前位置: 网学 > 网学资源大全 > 计算机 > 正文

基于短语模板对齐的统计机器翻译系统

来源:Http://myeducs.cn 联系QQ:点击这里给我发消息 作者: admin 发布时间: 13/09/05
【网学提醒】:本文主要为网上学习者提供基于短语模板对齐的统计机器翻译系统 ,希望对需要基于短语模板对齐的统计机器翻译系统 网友有所帮助,学习一下吧!

资料包括: 论文(6页6668字) 
说明:

摘要:论文提出了一种基于短语模板对齐的统计机器翻译系统。系统采用基于短语模板对齐的翻译模型替代原始基于词的模型,提出了计算短语模板翻译概率的方法,改进了先前单纯基于短语的搜索算法和回溯方法,解码时引入繁衍度为0且出现频率高的词,使翻译结果更合理。论文进行了一系列实验,介绍了05年863评测,证明本系统翻译结果的Bleu得分比原来的系统有了显著提高。

关键词:统计机器翻译; 翻译模型; 搜索算法

The Phrase-Template Alignment Based Statistical Machine Translation

Abstract:In this paper we propose a phrase-template alignment based translation system. In the system, we use phrase-template translation model instead of word-based model. An improved method to compute phrase-template translation probability is studied. A phrase-template based decoder we developed employs a beam search algorithm, in which some target language words that have both high frequency of appearance and also fertility zero are introduced to make the result more reasonable. We improve the previously proposed tracing back algorithm to get the best path. Some experiments concerned are presented.

Key words: statistical machine translation; translation model; searching algorithm

1 简介
统计机器翻译是大词汇量文本翻译最有效的方法之一,90年代早期,IBM开发了Candide系统 ,在此启发之下,出现了很多的统计机器翻译系统,这些系统有三部分核心技术:翻译模型,语言模型,搜索算法。基本原理是:以翻译模型制约源语言与目标语言之间词的对应,结合目标语言模型来驱动搜索进行。近年来,开发者不断研究,翻译系统从原始的基于词的翻译模型发展到更复杂的模型,基于对齐模板和基于短语的翻译模型及相应的搜索算法被提出,当前很多高效的翻译系统是基于短语的统计机器翻译系统。
我们的系统是在基于短语的翻译模型中引入模板的思想,构成了一种基于短语模板对齐的中英翻译系统。系统提出了一种结合对位信息和出现频率来计算短语模板翻译概率的方法,根据汉语与英语表达方式的不同,在搜索算法上改进了原来的柱搜索算法,引入了繁衍度为零且出现频率较高的词的信息,并改进了回溯算法,由于翻译的质量很大程度上依赖于短语模板对的抽取,文章的第2部分研究了短语模板的定义,短语模板对的提取方法及翻译概率的计算,第3部分主要介绍了改进的搜索算法,第4部分讨论了一系列中文到英文的翻译实验,探讨了不同短语模板抽取方法及改进的搜索算法的效果,文章的第5部分进行了总结。

目录:
1 简介
2 基于短语模板的翻译模型
3 解码算法
4 实验
5 结论
参考文献:
Peter F. Brown , Stephen A. Della Pietra, et al. The Mathematics of Statistical Machine Translation: Parameter Estimation[J]. Computational Linguistics, ,1993, vol. 19, no. 2, pp. 263-311.
Yeyi Wang and Alex Waibel. Fast Decoding for Statistical Machine Translation[A]. Proc. ICSLP 98[C], Vol. 6,pp.2775-2778,1998
F. J. Och and H. Ney. Improved Statistical Alignment Model[A]. Proceeding of ACL-00[C],PP. 440-447,2000.
Och,F.J. ,Tillmann,C. ,Ney,H. Improved alignment models for statistical machine translation[A]. Proc. of the Joint Conf. on Empirical Methods in Natural Language Processing and Very Large Corpora[C], University of Maryland, College Park, MD (1999) 20-28.
Yamada, K. and Knight. A Syntax-based Statistical Translation Model[A]. In Proc. of the 39th Annual Meeting of ACL[C], 2001
Stephan Vogel, Ying Zhang, Fei Huang, et al . The CMU Statistical Machine Translation System[A]. In proceedings of the Ninth Machine Translation Summit[C]. PP.110-117, New Orleans, Louisiana, 2003.
Koehn, P. ,Och, F. J., and Marcu , D. Statistical Phrase-Based Translation. In Proceedings of the Joint Conference on Human Language Technologies and the Annual Meeting of the North American Chapter of the Association of Computational Linguistics. 2003.
Ying Zhang, Stephan Vogel and Alex Waibel. Integrated Phrase Segmentation and Alignment Model for Statistical Machine Translation[A]. Submitted to Proc. of International Conference on Natural Language Processing and Knowledge Engineering(NLP-KE)[C], 2003.
Stephan Vogel, Hermann Ney, and Christoph Tillmann . HMM-based Word Alignment in Statistical Translation[A]. in COLING’96: The 16th Int. Conf. On Computational Linguistics[C],pp.836-841,Copenhagen,Denmark, 1996.
Och, F. J., Ueffi ng, N., and Ney, H. An efficient A* search algorithm for statistical machine translation[A]. In Data-Driven MT Workshop[C]. 2001.

作者点评:
论文介绍了一种基于短语模板对齐的翻译系统,系统通过把模板的概念引入短语,使某些短语具有了泛化能力,研究了几种短语模板提取的方法,短语模板翻译概率的计算,改进的搜索算法及回溯的方法。通过实验证明了基于短语模板对齐的翻译系统优于传统的基于词的系统,与单纯基于短语的翻译系统相比,系统引入短语模板部分的解决了数据稀疏问题,使原来的短语具有了泛化能力,翻译结果的Blue得分有了显著的提高,搜索时引入F-zeroword通常会使输出结果更加合理,本系统的回溯方法在中-英的翻译中更有效,而选择合适的翻译候选数目会达到翻译质量与翻译速度的平衡。
虽然我们探讨了四种短语模板提取的方法,但在实验时我们发现较好的翻译候选通过公式计算得出的翻译概率未必很高,这需要我们继续研究翻译模型的概率计算方法,也是我们下一步的工作。
  • 上一篇资讯: 基于多自主元的柔性工作流研究
  • 下一篇资讯: 基于案例推理技术的研究与应用
  • 相关资讯

    网学推荐

    免费论文

    原创论文

    文章排行榜

    设为首页 | 加入收藏 | 论文首页 | 论文专题 | 设计下载 | 网学软件 | 论文模板 | 论文资源 | 程序设计 | 关于网学 | 站内搜索 | 网学留言 | 友情链接 | 资料中心
    版权所有 QQ:3710167 邮箱:3710167@qq.com 网学网 [Myeducs.cn] 您电脑的分辨率是 像素
    Copyright 2008-2015 myeducs.Cn www.myeducs.Cn All Rights Reserved 湘ICP备09003080号