学习啦 > 论文大全 > 技术论文 > 机器翻译技术论文(2)

机器翻译技术论文(2)

时间: 家文952 分享

机器翻译技术论文

  机器翻译技术论文篇二

  机器翻译技术的发展概述

  摘要:机器翻译近年来飞速发展,在各个领域都有广阔的使用空间,然而,目前的机器翻译技术还无法使用户完全满意,本文通过对机器翻译的技术和发展现状展开论述,试为进一步研究和改进现有技术提供基础的理论依据。

  关键词:机器翻译; 语料库;模型;语法

  中图分类号:G642 文献标识码:A文章编号:1003-2851(2010)02-0187-01

  一、机器翻译技术发展概述

  机器翻译(Machine Translation , MT)是使用计算机实现一种自然语言文本到另一种自然语言文本的翻译。通常情况下这种翻译是在没有人工干预的情况下进行的;若翻译的过程中含有人为因素,如人工校对翻译结果或优化翻译结果等,则机器所做的翻译称为机器辅助翻译。

  机器翻译涉及到的领域非常广泛,包括自然语言学、人工智能、数理逻辑及概率统计等。自然语言作为人类思维的高级表现形式,其自身的复杂性与灵活性使机器翻译成为人工智能领域中最难解决的决策问题之一。其灵活性与复杂性表现在同一源语言句子在不同的环境中可以表达不同的含义,同一含义可以采用不同语言表示形式。然而复杂并不代表完全不可以掌控,一种语言的语法规则及表达习惯是有一定规律的。掌握和运用这些规律就可以采用语言来表达思想,但是机器翻译需要完成两种或多种语言之间的处理,所以增加了翻译的难度。对于同一语系的语言其句子的长度、所含语义的信息量等可能比较相似,但是对于不同语系的语言其结构、表达方式、位置等差距很大,这些无疑会在一定程度上增加翻译的复杂度。

  目前机器翻译的研究方法主要有基于规则(Rule-Based)的机器翻译、基于中间语言的机器翻译及基于语料库(Corpus-Based)的机器翻译。基于规则的机器翻译主要是采用由语言专家编写或从语料库中获取的规则来表示翻译知识,由于这种翻译系统需要熟练掌握两种语言的语言专家进行规则的总结设计等,实现周期较长,难度较大;基于中间语言的机器翻译是将源语言表示为一种中间形态语言,再将中间形态语言翻译为目标语言,由于设计中间形态语言 是一项非常复杂的工作,所以这种翻译适用于规模小的特定领域;基于语料库的机器翻译可以分为基于统计的机器翻译与基于实例的机器翻译,该研究方法需要大规模语料库的支撑,自20世纪80年代IBM的Brown等人提出基于信道源思想的机器统计机器翻译模型以来,该方法一直以来都受到研究人员的关注和青睐。

  二、国内外最新研究动向

  国内外关于机器翻译的研究主要集中在三种方法上:基于规则的方法、基于中间语言的方法及基于语料库的方法。

  上世纪90年代之前,基于规则的方法占主导地位,其思路是由人工或机器辅助先构造供翻译用的词语信息库和句法语义规则库,再通过知识表示、知识推理,经由分析、生成等步骤获取翻译结果。这种方法也称为理性主义(Rationalist)方法,优点在于所使用的数据噪声小,构造出来的系统运行高效;缺点是构造规则库过程需要深入了解翻译语言及目标语言的专家制作语言的规则库,而且所得到的规则库既难以完备也无法反映语言的新变化还常常含有构造者的主观因素。

  基于中间语言的机器翻译目前的研究相对较少,该方法主要通过设计一种尽可能在各语言之间通用的中间形态语言。只要构造的中间语言体系良好、表述准确并且方便处理则基本上可以表示各种语言。这方面研究主要有联合国大学高等研究院(IAS/UNU)的通用网络语言(UNL)、卡耐基梅隆大学(LTI/CMU)在基于知识的翻译系统 KANT 的基础上推出的 Kantoo等。

  基于语料库的方法也称为经验主义(Empiricist)方法,主要是通过对大规模的双语或多语语料库进行概率运算,根据各语言要素之间的相似程度构造语言模型。经验主义方法的优势是构建模型时不需要太多的人力参与。经验主义方法又可分为基于统计的(Statistical-Based)方法和基于实例的(Example-Based)方法,目前较主流的为基于统计的机器翻译方法。

  2000年以来,统计机器翻译的研究进入了空前繁荣的时期。各种新的模型不断涌现,统计机器翻译从理论到技术都取得了长足的进展。在翻译框架方面,从最早的信源信道模型发展到最大嫡模型 (Maxi-Entropy Models),构造出的系统更具可扩展性;在翻译模型方面,从最早的基于词的模型发展到对齐模板模型和其他基于短语的模型及基于句法结构的模型,统计机器翻译模型考虑的语法因素越来越丰富;在参数调整方面,引进了基于最小错误率(Mini-Error Rate,简称MER)的区别性训练方法,参数训练过程中数据稀疏和模型不完善的问题得到了较好的解决。这些方面的进展使统计机器翻译系统的实际翻译效果有了很大的提升,使这类系统显现出了更强的竞争力。统计机器翻译逐渐成为机器翻译研究领域的主流方向。在NIST等国际评测中,基于统计模型的翻译系统显示出了极大的优势,Google等公司还推出了基于统计机器翻译引擎的网页翻译系统。

  机器翻译,由于需求高、实现难、周期长等特点,其目前的发展趋势较弱;基于中间语言的机器翻译,虽然在专业领域中优于基于规则的方法,但是由于其使用范围小、设计困难等不足,使很多研究者对其敬而远之;基于语料库的机器翻译中的统计机器翻译,由于其条件成熟、建模效率高、运转速度快及翻译结果好等特点使其拥有广阔的发展前景。

  参考文献

  [1] Yang Lin, Qun Lin and Shouxun Lin. Tree-to-String Alignment Template for Statistical Machine Translation[C]. In: Proceedings of the 21st International Conference on Computational Linguistics(COLING) and 44th Annual Meeting of the Association for Computational Linguistics(ACL), Sydney, Australia, 2006:609-616.

  [2] Yang Liu, Yun Huang, Qun Lin and Shouxun Lin. Forest-to-String Statistical Translation Rules[C].In: Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics(ACL), Prague, Czech Republic, 2007:704-711.

  
看了“机器翻译技术论文”的人还看:

1.毕业论文人工智能的应用

2.浅谈人工智能发展的论文

3.人工智能编程论文

4.人工智能领域论文

5.人工智能历程论文

2481188