鉴于大家对数据库十分关注,我们编辑小组在此为大家搜集整理了“ 基于汉英语平行语料库的翻译数据库设计 ”一文,供大家参考学习!
典型的机器翻译系统采用一种基于转换的(transfer-based) 翻译策略, 通常分三个步骤:
1) 分析源语言, 形成源语言表征; 2) 将源语言表征转换成目标语言表征; 3) 从目标语言表征生成目标语言译文。传统机器翻译有其不足之处, 具体表现在两个方面: 第一, 传统机器翻译将词作为基本翻译单位, 机器先将源语言句子分解成词, 再将词转换成目标语言的词, 然后根据目标语言语法结构特征将词连接起来(Chang, Danielsson &Teubert 2004)。第二, 传统的机器翻译对语境没有给予充分的考虑。我们知道, 词往往是多义的, 迄今为止还没有一种可靠方法能消除词汇歧义, 对于汉、英两种互不关联的语言来说要消除翻译中产生的词汇歧义尤其不易;因而翻译者在面对众多的义项时经常会一筹莫展, 不知道如何选择合适的、意义相同的表达法。此外, 人类的翻译实践证明, 人们在翻译时不会脱离语境来逐字翻译, 而是将词置于足够大以至于没有歧义的意义单位(unitof meaning) 中来考虑, 即, 将几个词的组合(group of words) 作为一个翻译单位来进行翻译 (Teubert &ˇCermáková2004)。基于平行语料的翻译对等研究正是试图克服传统机器翻译系统的不足、提高机器翻译系统效率和准确率的一种尝试。
始于 2001 年的“基于汉、英语平行语料库的翻译数据库设计”项目由英国柯林斯出版公司资助。参加本项目研究的有英国伯明翰大学语料库语言学研究中心、北京大学计算语言学研究所和中国科学院软件研究所。
英国伯明翰大学 Wolfgang Teubert 教授为项目的总负责人, 负责提出研究思路、框架及具体研究步骤。北京大学计算语言学研究所和中国科学院软件研究所负责语料的处理。笔者则是作为具有汉、英双语知识的语言工作者应邀赴英国参加该项目研究的。
该项目研究尝试一种新的翻译方法, 其新意表现在以下四个方面: 1) 基于真实的源语言和目标语言; 2) 充分利用诸多翻译工作基于汉、英语平行语料库的翻译数据库设计*浙江大学 何莲珍提要: 机器翻译研究自二十世纪五十年代以来取得了一些成绩, 但迄今为止的机器翻译系统所适用的领域非常有限。传统的机器翻译系统存在两个问题: 第一, 传统机器翻译将词作为基本翻译单位, 而词的多义性使得机器翻译系统在碰到一词多义现象时无所适从; 第二, 传统机器翻译对语境没有给予充分的考虑。人类的翻译实践证明, 脱离语境的翻译往往会生成一些意义模糊、令人费解甚至荒诞不经的译文。本文报告笔者参加的中英合作项目“基于汉、英语平行语料库的翻译数据库设计”的研究情况以及所取得的一些进展。研究表明, 以内容为出发点, 以非歧义词和多词单位作为翻译单位, 建立双语翻译单位———翻译单位及其在目标语中的翻译等值单位———的数据库有助于提高机器翻译的效率及准确率。