网站导航免费论文 原创论文 论文搜索 原创论文 网学软件 学术大家 资料中心 会员中心 问题解答 原创论文 大学论文导航 设计下载 最新论文 下载排行 原创论文 论文源代码
返回网学首页
网学联系
最新论文 推荐专题 热门论文 素材专题
当前位置: 网学 > 网学资源大全 > 工科论文 > 正文

一份社会语言调查对汉英机器翻译中词语切分的启示汉语分词与汉英

来源:http://myeducs.cn 联系QQ:点击这里给我发消息 作者: 用户投稿 来源: 网络 发布时间: 14/06/28

【编者按】:网学网工科论文为您提供 一份社会语言调查对汉英机器翻译中词语切分的启示汉语分词与汉英 参考,解决您在 一份社会语言调查对汉英机器翻译中词语切分的启示汉语分词与汉英 学习中工作中的难题,参考学习。

    1.引言汉语词语切分是汉语自然语言处理领域的一个重要课题,“书面汉语的自动切词,是汉外机器翻译、书面汉语文献自动标引、书面汉语自然语言理解等研究工作的基础和前提。”就机器翻译而言,它对汉语词语切分系统的要求特别高,因为机器翻译系统大多以句子为单位进行分析与处理,一个句子中只要有一处出现分词错误,整个句子就无法正确分析与翻译。根据笔者对目前市场上的两个翻译软件和一个自动分词软件的评测,它们对歧义语块的切分正确率并不是很高。对于所有24个歧义语块的分词,其中一个软件正确切分了13个,另一个软件切对了16个,还有一个软件只对了2个。若以包含歧义语块的一对句子为考察单位,三个软件能够根据不同的上下文调整自己词语切分的比例分别是9.1%、36.3%和0%。在这些歧义语块的翻译中,由汉语分词错误造成的翻译错误分别占到了两个翻译软件的错译的78.6%(11/14)与66.7%(8/12)。此外,我们还发现,有些语块的词语切分是正确的,但翻译却是错误的,其主要原因之一是未能根据上下文正确选择该词语的义项。(吴志杰2009:
  12-13)在本研究中,我们将进行一系列的问卷调查与采访,让人对同样的语言材料进行词语切分,并试图发现人的词语切分的策略与方法。在此基础上,我们将对机器的分词方法和结果与人的分词方法和结果进行对比分析,看是否能从人的汉语词语切分中找出可供改进机器翻译中分词技术的方法论启示。
  2.汉语分词的问卷与采访为了考察人如何在阅读中进行分词,我们做了两份问卷调查和八个跟踪采访。
  2.1问卷调查调查对象2004年4月9日,我们做了第一份问卷调查。本文所属栏目http:///organ/
  调查的对象是某省级机关管理干部学院三年级商务英语班的全体学生31人。问卷由该班任课教师在上课时间发放,共计31份。调查对象非常配合,认真地完成了问卷,当场收回有效答卷31份。
  第二份问卷属于第一份问卷的跟踪调查,在一周后进行,调查对象相同。在这两次问卷调查中,该研究的重要性都在问卷发放时得到了强调。
  下表中列出了这两次问卷调查对象的基本信息:
  调查对象人数百分比有效百分比男性6 19.4 19.4女性25 80.6 80.6总数31 100.0 100.0表一:问卷调查对象信息表本论文得到南京理工大学科技发展基金项目“汉语分词与汉英机器翻译研究”的资助,项目编号:XKF09052,特此致谢。本研究的部分内容曾作为“New Light Shed on Chinese Word Segmentation in MT by a Language Investigation”的一部分发表于,写作本系列论文时根据新的情况作了较大调整改动。感谢南京大学刘华文副教授、柯平教授的指导与帮助。调查问卷问卷调查与分词实验(吴志杰2009: 10-12)的材料一样,即从刘开瑛(2000: 60-91)所著《中文文本自动分词和标注》一书中选取的24个汉语句子。据该书作者称,这些语言素材来自于一个510万字的语料库,该语料库由网上随机下载的新闻语料加工而成。(同上: 64)选择同一语言素材的目的是为了使问卷调查与分词实验更具可比性。(本论文由网学http:// 整理提供,如需转载,请注明出处或联系我们的客服人员)
 

网学推荐

免费论文

原创论文

设为首页 | 加入收藏 | 论文首页 | 论文专题 | 设计下载 | 网学软件 | 论文模板 | 论文资源 | 程序设计 | 关于网学 | 站内搜索 | 网学留言 | 友情链接 | 资料中心
版权所有 QQ:3710167 邮箱:3710167@qq.com 网学网 [Myeducs.cn] 您电脑的分辨率是 像素
Copyright 2008-2015 myeducs.Cn www.myeducs.Cn All Rights Reserved 湘ICP备09003080号