浅谈机器翻译的几种方法

日期:2019-05-21 23:20:50 / 人气: / 来源:网络转载侵权删

  在计算机科学中,机器翻译是人工智能的研究领域。

  机器翻译( Machine Translation ) , 是使用电子计算机把一种自然语言(源语言, Source Language )翻译成另外一种自然语言(目标语言, Target Language )的一种学科。

  这新学科同时也是一门新技术,它涉及到语言学,计算机科学,数学等许多部门,是非常典型的多边缘交叉学科。

  人们一直在寻求更好的解决机器翻译问题的方法,目前机器翻译方法主要有基于规则的机器翻译,基于语料库的机器翻译和混合式机器翻译方法。

  一、基于规则的机器翻译方法

  基于分析和转换的机器翻译方法

  人作翻译时,把一个源语言句子译成目标语言句子,设计到四个基本操作:目标语言单词的检索、调序、删词、增词;机器翻译系统的过程包括检索、分析、转换和生成主要四个阶段,这被称为基于分析和转换的机器翻译系统,也被认为是模拟人类翻译活动最恰当的机制。

  该方法有三个阶段,为分析—转换—生成。一般情况下,分析以句法为主、语义为辅,正确的句法结构转换加正确的词汇译文可以从源语言向目标语言传递完整的正确信息。以句法结构转换附加一定的语义信息,?能够构成转换的基本层次[3]。标准机器翻译系统中句子和短语层次的结构转换是核心,产生式方式的转换规则形式为:

  S是源语言的某个待翻译单位(句子、短语等等),S1~Si是S中的下一级组成单位对于S,如果满足条件,则目标语言中有T1~Tj译文构成了相应的等价物T。

  上述方法称为基于句法的转换方法,因为S1+S2+···Si一般来说就是源语言的的句法结构表示:也可以称为直接转换方法,因为对于每个源语言的翻译组块,都马上给出一个目标语言组块与之对应应该说,?这种转换方法符合人的直觉认识也能够实现。

  基于中间语言的机器翻译方法

  基于中间语言的翻译方法是对源语言进行分析以后产生一种称为中间语言的表示形式,然后直接由这种中间语言的表示形式生成目标语言。所谓中间语言就是自然语言的计算机表示形式的系统化,它试图创造出一种独立于各种自然语言,同时又能表示各种自然语言的人工语言。

  基于中间语言的机器翻译方法的优势是无需一种语言到另一种语言的一一转换,对于多语种的翻译系统可以节约大量的转换知识的手工获取工作量,假如有N种语对需要相互翻译,只要有2N个分析和生成模块就够了。其中一半是源语言分析模块,输入为原文,输出以1L表示:另一半是目标语言生成模块,输入为1L表示,输出为目标语言译文。然而,中间语言的机器翻译方法也常遭到怀疑。因为是否能够构造出表示各种不同的自然语言语法、语义的中间语言至少目前还是未知数。此外,中间语言能不能把各种语言的所有特征保留下来,又能很好生成对应的各种语言也是问题。所以,构造中间语言是一个巨大、复杂的工程,还包含许多理论研究,迄今为止的探索还没有好的答案。

  基于转换的方法采取了一系列转换生成层次,各种分析多(如词法、句法、语义和语境等),而且在分析的过程中,会出现许多歧义结构,显然,如果没有好的算法效率就会低;此外,对于那些不符合语法规则的句子,这种方法难于给出正确的翻译结果。

  二、基于语料库的机器翻译方法

  基于统计的机器翻译方法

  基于统计的机器翻译方法,一般不要任何语言学知识,它的基本原理是实现源语言词汇到目标语言词汇的映射。其思路受到语音识别研究的启发,因而应用了类似的方法来实现。研究者用大规模的双语语料库作为基础,对源语言和目标语言词汇的对应关系进行统计,根据统计规律输出译文。这种方法没有使用语言知识,主要特征是概率基于统计的机器翻译方法,一般不要任何语言学知识,它的基本原理是实现源语言词汇到目标语言词汇的映射。其思路受到语音识别研究的启发,因而应用了类似的方法来实现。研究者用大规模的双语语料库作为基础,对源语言和目标语言词汇的对应关系进行统计,根据统计规律输出译文。这种方法没有使用语言知识,主要特征是概率统计与随机过程的方法成为了分析和生成过程的唯一方法。它的主要内容是双语句对的对齐,通过词汇同现的可能性来计算一种语言的一个词映射到另一种语言的一个词(或两个、零个词)的概率。应该说,基于统计的机器翻译方法的出现改变了机器翻译研究的面貌,从而开始了机器翻译研究的新阶段。

  统计方法最先在语音识别领域取得了成功,机器翻译的噪声通道模型可以视作最早的机器翻译思想,其思路可以这样理解:

  假设说话者已经用目标语想好了一句话T,但是说出的却是源语言句子S。这样一个过程可以看成为编码过程。而统计的机器翻译就是要从S回推T,可以看成解码过程。这样,统计的机器翻译任务分为两个部分:一是建模,即建立翻译的计算方法以及从双语语料库中估计模型的参数;二是解码,即寻求一种高效搜索算法取有关概率计算的最大值。

  基于统计的方法以大规模的双语语料库为基础,需要训练,一般翻译速度比较慢;而且它还有被怀疑之处——这种方法会不会由于本身的固有属性,不可能有很高的译文正确率。但基于统计的机器翻译方法还是具有很多优势,如开发速度快、周期短、无需人工干预等,在特定领域训练数据充分的情况下翻译性能基本可以达到实用水平。

  基于实例的机器翻译方法

  基于实例的机器翻译方法通过结构化的翻译例子直接把源语言的短语和句子与目标语言的短语和句子对应起来,方法的不同使得处理步骤或多或少,但都必须实现源语言到目标语言的转换,其映射关系或者是词到词,或者是短语或句子到与之相应的等价物,或者是一棵句法树到另一棵句法树。

  基于实例的机器翻译(EBMT)的实现过程简单概述如下:给定源语言输入句子S,在双语语料库C中匹配查找一个最相近的句子S’,则S’的译文就被接受为S的译文。翻译的过程一般就是查找和复现相似的例子,发现和记起特定的源语言表达或相似的表达在以前是如何翻译的,把以前的翻译实例作为主要知识源。

  三、混合式机器翻译方法

  基于混合式的机器翻译方法能够很好的利用两种方法的优点,目前非常盛行。混合式机器翻译方法是将基于规则的翻译方法和基于统计的翻译方法结合。在基于规则的技术中引入语料库方法,其中有基于实例的方法、统计方法,通过对语料库的预处理使其转化为自然语言知识库的方法。Rules post-processed by statistics统计方法做后处理,翻译使用规则方法。Statistics guided by rules使用规则方法做前后处理,翻译使用统计方法。

  混合式机器翻译方法是效果最好的,但目前混合方法中各种模型的耦合方式还比较松散,进行多翻译模型的深度融合可能是未来研究的一个热点。

  机器翻译瓶颈

  之前进行的机器翻译的有益的探索中,凡是取得了结果的研究大都努力避开理解语言这一过程。因为这一过程本身涉及到了A的终极目标,机器的智能化。然而,这又是一个无法回避的问题,不能理解语言就不可能进行真正意义上的翻译。

机器翻译相关阅读Relate

  • 旅游英语论文:机器翻译及旅游文本的译后
  • 被遗忘的在线翻译行业,现状如何?
  • 机器翻译的瓶颈在哪?如何突破?
  • 媒体报道相关问答
    问:如何保证译稿的准确性?
    答:选用专业化的高素质翻译人员,依赖完整严格的质量保证体系,执行科学、规范的工作流程;此外,我们不主张和客户之间没有沟通的翻译过程,为了保证最佳的翻译质量,客户应尽量提供您已在沿用的文稿中涉及到的词汇或本行业相关术语的译法。
    问:你们翻译公司是否就是一个中介机构?
    答:1、我们有自己的翻译部,所有的文件都是经过我们的译员翻译出来的。 2、我们有统筹和校审部,所有文件的质量都是这两个部门来把关。 3、我们对翻译的后期修改维护负责。免费为客户提供后期的稿件维修工作。
    问:你们翻译公司做过电子翻译没有?
    答:电子翻译是我们的主要优势翻译领域,电子行业客户是我们最大的客户群,我们精通电子行业细分的多个领域。
    问:目前我的文章在语法上应该问题不多,但是表达上可能有些单调,这是投稿的忌讳,你们能解决吗?
    答:给出中文原稿这个问题应该可以解决
    问:贵司的付款方式?
    答:我们支持对公帐户、对私帐户、邮局汇款、在线网银、支付宝等各种方式,您可以选择自己方便的付款方式进行支付。
    问:需要与你们公司什么人接洽翻译业务呢?
    答:我们公司采取专属客服服务模式。为企业客户配备专属客服经理,一对一沟通具体项目的翻译需求,实时响应与沟通,节假日不休。
    问:你们公司有专门的视频资料或公司资料吗?
    答:有的。可以联系我们客服人员获取详情。
    问:我想要翻译一篇文章,请问是怎么收费的?
    答:资料翻译报价是根据稿件总字数、专业性程度、翻译领域、交稿时间综合考虑来确定的。一般来说,中译英费用160元/千字,英译中150元/千字,都是基于汉字统计“字符数(不计空格)”数值计算。您可以参看我们的翻译报价。
    问:一些特殊文档稿件怎样进行字数统计?
    答:对于这些文档格式的稿件,如:Pdf、Powerpoint、CAD,我们一般先尽量用软件转换成WORD文件进行统计;如不能转换,我们将通过估算字数方式来统计;估算方式统计结果如有争议,将通过最终翻译稿件实际字数进行换算。
    问:是否所有的文章内容收费都是固定的?
    答:我们对学术类资料精译的基本收费标准是中译英0.18元/字,英译中0.16元/字。但不排除特殊难度的资料采用特殊报价。如中医资料,历史考古,古汉语,哲学等等难度晦涩的专业资料。
    本站部分内容和图片来源于网络用户和读者投稿,不确定投稿用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的权利,请联系:187348839@qq.com,及时删除。
    Go To Top 回顶部
    • 扫一扫,微信在线