网学网为广大网友收集整理了, 以语义学并置理论为基础探讨翻译软件结果偏差及改进方法 ,希望对大家有所帮助!
1 简介 1.1 机器翻译
机器翻译(MachineTranslation,常缩写为MT),又称自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(NaturalLanguageProcessing)的一个分支,与计算语言学(ComputationalLinguistics)、自然语言理解(NaturalLanguageUnderstanding)之间存在着密不可分的关系。机器翻译的研究是建立在语言学、数学和计算机科学这三门学科的基础之上的。语言学家提供适合于计算机进行加工的词典和语法规则,数学家把语言学家提供的材料形式化和代码化,计算机科学家给机器翻译提供软件手段和硬件设备并设计程序。机器翻译效果的好坏,取决于这三方面的共同努力。机器翻译系统按其加工深度可分为三种类型:以词汇为主的机器翻译系统,以句法为主的机器翻译系统和以语义为主的机器翻译系统。
第一类机器翻译系统以词汇转换为中心建立双语词典且算法就是规则。这类翻译系统的译文质量低且系统修改困难。第二类机器翻译系统把句法的研究放在第一位且语法与算法分开。这类机器翻译系统使用方便,并且在译文的质量上比第一类机器翻译系统好。以语义为主的第三类机器翻译系统除了义素、词、词组、句子之外,还要研究大于句子的句段和篇章。目前世界上大多数机器翻译系统研究的重点主要放在句法方面。由于语义研究还不成熟,建立第三类机器翻译系统还有相当大的困难。
1.2 并置理论
传统的“符号学三角形”理论对语义学研究的最大缺陷是它孤立地分析单个词的语义现象,忽略了词与词之间的内在关系,并置理论则与之截然不同。并置理论的概念最早源于J.R.Firth提出的“意义取决于搭配”的原则,并由Hall-iday进行进一步地充实。语义学中的并置理论(CollocationalTheory)是研究“相关的(或然的)”词汇———语义关系(Prob-abilistic-LexicalRelations)的。这种理论的基本论点是:某些词与另一些词之间是有联系的;这是一种“相关的(或然的)”语义联系。例如,night这个词在语言的实际应用中经常与dark连用(并置),但很少和slow,deep,knife等词连用。又如,father很有可能与toshave、mother、son等词用在同一个句子中。例如(参见伍谦光2001:82-83):
Fatherdidn’tshavethismorning.
Mothercouldn’tfindfather’sslippers.
Likefather,likeson.
但father很少与nailvarnish(指甲油)等用在一起。
又如chair和sofa等词经常与sit或comfortable用在一起,却很少会与walk,run,merry,giveup等用在一起。
本文将从并置理论的视角出发,结合一些机器翻译的实例,对机器翻译中存在的一些搭配用法翻译不当的问题进行分析、探讨,并试图探寻出解决方法,以改善机器翻译的质量。
2 并置理论在机器翻译中的应用 我们知道,词的并置关系(即搭配用法)是人们长期在语言使用的过程中形成的,是“约定俗成”的。如果要在源语言与目标语言之间进行自然的转换,这种“约定俗成”的语言习惯用法也在此过程中起到相当重要的作用。以汉译英为例,在机器翻译过程中如果不考虑英语的习惯用法,仅从语法角度出发,就会造成一些虽然符合英语语法但违反了英语习惯用法的翻译。而我们通过实践发现,目前的一些翻译软件大部分还无法做到真正自然地将源语言和目标语言进行相互转换。例如,对“请医生”这个表达用几种翻译软件进行翻译,得到的结果如下:Google翻译为askthedoctor,百度翻译也翻译为askthedoctor,Yahoo翻译为invitesdoctor,微软翻译为callthedoctor,SYSTRAN为in-vitedthedoctor,有道翻译翻译为pleaseaskthedoctor。而相对应的习惯用法应该是sendforadoctor。再如,“身体健康”(healthy)这个表达的翻译用这几种翻译软件进行翻译,得到的结果为:Google翻译和百度翻译翻译为goodhealth,微软翻译为bodyhealth,Yahoo翻译、SYSTRAN和有道翻译翻译为health。
并置理论指出,在某些词之间存在着并置关系,但在另一些词之间却不存在并置关系;在语义上有联系的词,在语言的实际运用中不一定有并置关系。例如,father和mother、son等词之间常存在并置关系,但和nailvanish一般不存在并置关系;body和health之间在语义上有联系,但在实际的语言运用中却一般不存在并置关系。因此,在进行机器翻译的程序设计时,词与词之间的并置关系也应是一个重要的考虑因素,否则就可能会产生“不伦不类”的翻译结果。
此外,词汇搭配中词与词之间的“破格搭配”也是值得我们注意的一个问题。伍谦光在《语义学导论》中谈到并置理论与英语教学时提到,破格搭配有两种情况:一种是在一般情况下没有并置关系的词在特殊情况下却可以搭配使用,如night和white一般没有并置关系,但在描述北极地区的极夜现象时,却可以搭配使用;另一种是在习惯用法中的破格搭配,如toloseone’slegs,topullone’sleg,notturnahair,tohangaleg,tolashthewaves,towearone’syearswell等。破格搭配是人们在学习英语时应注意的一个问题,同时也是在进行机器翻译时应注意的一个问题。
通过观察,我们可以发现,一些常用的翻译软件对破格搭配的翻译可谓是五花八门,并且离实际意思相去甚远。例如,在Johnlookslikeawalkingcorpseaftertheseriousillness一句中,awalkingcorpse属于破格搭配,因为一般情况下,“死尸”是不会“走路”的。该句的意思为“经过这场重病,约翰瘦得皮包骨头了”。我们用翻译软件对该句进行翻译,Google翻译为“约翰看起来像一个大病后的行尸走肉”,百度翻译为“约翰看起来就像一个行走的尸体后,严重的疾病”,微软“约翰像行走的尸体后严重的疾病”,Yahoo翻译为“约翰看起来一具走的尸体在病魔以后”,SYSTRAN翻译为“约翰看起来一具走的尸体在病魔以后”,有道翻译为“约翰看起来就如同行尸走肉在严重的疾病”。对于用翻译软件翻译出来的翻译,除了需要在语序上调整之外,对破格搭配的翻译也有些偏差。再如,aburningquestion(热烈讨论的话题),Google和百度翻译为“燃烧的问题”,Yahoo和SYSTRAN翻译为“一个灼烧的问题”,有道翻译为“一个燃烧着的问题”,只有微软翻译得出的“紧迫问题”才比较恰当。在翻译习惯用法的破格搭配时,翻译软件往往是根据词的意思直译的。
例如,对toloseone’slegs的翻译进行检索,得出以下几种译法:Google、微软和有道翻译为“失去一个人的腿”,百度翻译为“失去某人的腿”,Yahoo翻译为“丢失one’s腿”,SYS-TRAN翻译为“丢失你的腿”。而该短语的意思为“醉得东倒西歪”。再如,对notturnahair的翻译进行搜索,得出以下几种结果:微软翻译译为“不把头发”,Yahoo翻译为“没有转动一根头发”,SYSTRAN翻译为“没有请转动一根头发”,有道翻译译为“不要把头发”,只有Google翻译和百度翻译能够给出恰当的翻译———“不动声色”。而习惯用语tolashthewaves(白费力气)的翻译搜索结果为:Google翻译为“抨击浪”,百度翻译为“冲击波”,微软翻译为“奢侈买浪”,Yahoo翻译和SYSTRAN译为“抨击波浪”,有道译为“鞭打波浪”。
要对上述这些现象进行改善,就要结合并置理论对机器翻译进行改善。但由于一些词的搭配能力非常强,即使是一些大型的词典或语料库可能也无法将这些词在自然语言中的搭配用法全部都收录进去。这就需要试图建立一个与词典相结合的语料库。我们可以发现,在大部分词典或电子词典中,对破格搭配都有专门的解释,还有一些词典也会罗列一些常用搭配用语及其解释。由于词典中所收录的习惯用语比较完备,因此如果我们能够将语料库和词典翻译结合起来,就至少能够在很大程度上改善英语习惯用语中的一些译法。英语中的习惯搭配的使用也较为频繁,因此改善习惯搭配的译法能够在一定程度上改善机器翻译译文的质量。
3 结语 由以上实例,我们可以看出,机器翻译在翻译“约定俗成”的搭配用法时,还无法做到自然地、准确地将源语言转换为目标语言。而要将这一缺陷改进,则要依赖词典、语料库等来对机器翻译进行改善。但是由于自然语言固有的复杂性以及计算机的智能尚未充分发展等多种原因,机器翻译的译文要达到接近自然语言这一目标,还需要攻克一系列的理论与技术难关。