Our Services

始终以翻译品质、物美价廉,提升您的翻译水准与品味为己任。

文档翻译
Document Translation

专注于法律合同、管理咨询、财经金融、机械制造、生物医药、IT通讯等领域的多语言翻译。

本地化翻译
Localized Translation

提供文档本地化、软件本地化、网站翻译、多媒体本地化、游戏本地化、多语言桌面排版(DTP)等服务。

口译服务
Interpretation Service

提供陪同翻译、会议翻译、会展口译、交替传译、同声传译,以及同传设备租赁等专业服务。

母语审校
Native-speaker Proofreaders

遍布全球的资深母语译员为您提供专业地道的润色审校服务,让您的译文更符合当地的文化习惯和文风要求。

1.基本类型的机器翻译系统:
  
  现有的机器翻译系统按照其基本工作原理,可以分为基于规则的(Rule-Based)机器翻译,基于实例的(Example-Based)机器翻译和统计型的(Statistical)机器翻译这三种基本类型。
  
  1.1.基于规则的机器翻译系统
  
  (Rule-Based Machine Translation, RBMT):
  
  其基本工作原理基于一个假设,即语言无限的句子可以由有限的规则推导出来。
  
  基于这个假设的机器翻译方法又可以分为三类:直接翻译法(Direct Translation),中间语言法(Interlingual Approach),和转换法(Transfer Approach)。
  
  它们都需要用到大规模的双语词典,需要用到源语言推导规则,语言转换规则和目标语言生成规则;其不同点在于对语言进行的分析深度不同。
  
  如直译法几乎不需要进行语言分析,中间语言法和转换法需要对源语言和目标语言进行某种程度的语言分析。
  
  1.1.1直接翻译法(Direct Translation):
  
  这种翻译方法直接对源文字中的字词进行逐个翻译,译后文字顺序按照原文顺序进行排列。
  
  这是基于规则的机器翻译的最早的工作方法。这种译法简单、直观,其弊端也是明显的:由这种方法得到的翻译结果质量很不令人满意。人们已经逐渐不再使用这种直接翻译法。
  
  1.1.2中间语言法(Interlingual Approach):
  
  这种翻译方法对源语言文字进行透彻的语言分析,将其转化为一种中间语言表达形式,进而由这种中间语言(Interlingua)进一步生成和输出符合目标语言语法规则的文字。
  
  这种中间语言是一种非自然语言,即不是任何国家地区人们使用的语言;而且它是一种没有歧义的表达方式。此外,中间语言不是唯一的,不同的系统采用不同的中间语言。
  
  任意一种语言经由中间语言译为其它任意一种语言,理论上这种中间语言法是最有效率的一种翻译方式。
  
  假定世界上总共有n种自然语言,使用中间语言法,只需2n个模块就可以解决所有自然语言之间的互译问题。
  
  不使用中间语言,这些语言间的互译则需要n(n-1)个模块。当n大于3时,2n小于n(n-1)。我们知道,世界上的自然语言种类远大于3,因此2n个模块的数量远小于n(n-1)个模块的数量。
  
  1.1.3转换法(Transfer Approach):
  
  这种翻译方法先对源语言文字进行一定程度的语言分析,去除语法的因素,生成源语言的中间表达方式,然后经由转换,生成目标语言的中间表达方式,再由目标语言的中间表达方式生成和输出符合目标语言语法规则的文字。
  
  目前来说,转换法的语言分析和实现方法在三种方法中最为复杂,得到的翻译质量在三种方法中也是最好的,是目前商业上最常使用的翻译方法,在商业上最为成功。
  
  在许多基于规则的机器翻译系统中,由语言学家辅助编写一系列关于源语言和目标语言的语法规则,以及将源语言数据转换为目标语言数据的转换规则。
  
  然而使用全人工来制作这些规则非常昂贵、费时,而且易于出错。一个解决方法便是将以往的历史翻译结果作为资源库,其中的源语言文字和它对应的目标语言译文作为例子,从中尝试提取出恰当的规则。方法之一是对源文字和目标语言译文作人工标记以示关联。
  
  Sato 和Nagao研发出一个系统,用平面依赖关系树来表示源语言文字和目标语言文字。这种关系树型数据结构是计算机高效识别的一种形式。
  
  通常用两个层次代表源语言和目标语言之间的关联:第一层次依赖于文字的表面形式(如字、词顺序),用于源语言的分析和目标语言的生成;第二层次依赖于字词间的语义关联,用于从源语言向目标语言的转换。这种机器翻译系统在基于规则的机器翻译基础上,利用了实例库的优势。
  
  随着大量历史翻译结果的积累,出现了基于实例的机器翻译系统,人们将这些已经完成的翻译结果作为资源库,利用到机器翻译中来。
  
  1.2.基于实例的机器翻译(Example-Based Machine Translation,EBMT):
  
  其基本工作原理是基于类比(Analogy)的原则,从实例库中匹配出与源文字片段最相似的文字片段,取出实例文字片段对应的目标语言翻译结果,进行适当的改造,最终得出完整的翻译结果。
  
  基于实例的机器翻译其核心思想最早由Mako Nagao 提出,他提出:人们在翻译简单句子时并不作深层语言分析,而是翻译。
  
  首先把源句子分解成若干片段,然后将这些片段译为目标语言,每个片段的翻译都是通过与例句做匹配以类比的原则得到的,最后将这些译后句子组合成一个长句子。
  
  1.2.1.实例库的构成:实例库也称为语料库(Corpus),由已经完成的翻译结果构成。这些现成的翻译结果也称为语料,包括人工翻译的结果和经过人工编辑的机器翻译结果。
  
  语料库由双语对构成,包括源语言文字片段和目标语言译文文字片段两部分。这些翻译结果要先经过拆分和对齐处理,才可以成为语料库中的可用语料。因此语料库也称为平行双语语料库(Parallel Corpus)。
  
  拆分和对齐目前有多种形式,如句子水平的对齐和短语水平的对齐。对齐的文字片段大小的选择,会直接影响匹配的效率和翻译结果。
  
  1.2.2.语料拆分的碎片化问题:
  
  Nirenburg等(1993)指出,在基于实例的机器翻译系统(EBMT) 中,实例语料存在一个文字片段长度和相似度之间的一个矛盾。文字片段越长,越不易得到一个相似度高的匹配;文字片段越短,越可能得到一个大致匹配,但是得到低质量翻译结果的风险也越大。
  
  比如由段落划分边界产生的重叠问题以及不恰当的划分导致的翻译质量下降。直观上似乎是选择以句子为单位划分得到的语料对比较好,有诸多优势如:句子的边界划分清楚,一些简单句子的结构清晰。
  
  然而在实际应用中,以句子为单位并不是最恰当的方式。实践证明匹配和重组过程需要使用更加短小的片段。(当然,这些研究结果是以欧美语系语言之间的翻译研究结果为基础的。)
  
  1.2.3.实例库定制:
  
  实例语料的的范围和质量影响着基于实例的机器翻译系统(EBMT)的翻译质量水平。在某特定领域获取高质量语料可以大大提高机器翻译在此领域的翻译质量,称为语料(实例)库的定制。
  
  1.3. 统计型机器翻译系统(Statistical MT):
  
  IBM公司的Brown在1990年首先将统计模型用于法-英机器翻译。其基本思想是:把机器翻译问题看成是一个噪声信道问题,然后用信道模型来进行解码。翻译过程被看作是一个解码的过程,进而变成寻求最优翻译结果的过程。
  
  基于这种思想的机器翻译重点是定义最合适的语言概率模型和翻译概率模型,然后对语言模型和翻译模型的概率参数进行估计。
  
  语言模型的参数估计需要大量的单语语料,翻译模型的参数估计需要大量平行双语语料。统计机器翻译的质量很大程度上取决于语言模型和翻译模型的性能,此外,要找到最优的译文,还需要有好的搜索算法。
  
  简单说,统计机器翻译首先建立统计模型,然后使用实例库中的实例对统计模型进行训练,得到需要的语言模型和翻译模型用于翻译。
  
  统计型机器翻译,除了基于噪声信道理论的系统以外,还有基于最大熵方法的系统。博格(A.L.Berger)在1996年 提出自然语言处理中最大熵方法(Maximum Entropy Approach)。
  
  德国人奥赫 (Franz Joseph Och)等发现, 把IBM公司的统计机器翻译基本方程式中的翻译模型转变为反向翻译模型,总体的翻译正确率并没有降低,由此,他们提出基于最大熵方法的机器翻译模型。
  
  统计型机器翻译取得了一定的成绩,然而纯统计设计却不能解决所有困难。统计型的方法不考虑语言的语义、语法因素,单纯用数学的方法来处理语言问题,有着巨大的局限性。
  
  于是人们开始探索基于统计方法和其它翻译方法的联合应用。如统计的和基于实例的机器翻译系统,统计的和基于规则的机器翻译系统,等等。
  
  2. 综合类型的机器翻译系统:
  
  以上三个基本机器翻译系统各有优势和长处,同时又不可避免的具有某种缺陷和局限性。
  
  如基于规则的机器翻译系统(RBMT)可以准确的描述语言学特征和规律,然而制定适用和完备的语言规则却不是一件容易的事;
  
  基于实例的机器翻译系统(EBMT)可以充分利用已有的翻译结果,但是实例库的维护需要大量的人工和费用;
  
  统计型的机器翻译(Statistical MT)可以缓解知识获取的瓶颈问题,但是纯数学的方法难于完全解决语言中的复杂问题。
  
  为进一步提高机器翻译系统的翻译水平,人们综合以上几个基本类型的优势,又发明了混合型机器翻译系统(Hybrid MT),多引擎机器翻译系统(Multi-Engine MT)和提出了基于知识的机器翻译系统(Knowledge-Based MT)的理论。
  
  2.1混合型机器翻译系统(Hybrid MT):
  
  翻译过程使用两种或以上机器翻译原理。比如:基于规则的机器翻译方法的核心是构造完备的、适应性较强的规则系统。如何得到完备和适应性强的规则系统成为研究焦点。
  
  使用传统的方法,语法规则库的建立需要大量的人力、物力,大量的语言语法规则之间往往存在着不可避免的冲突,规则的完备性和适应性不能得到保证。
  
  随着人们翻译工作的进行,生成大量已完成的翻译结果,形成大量语料。人们想到了使用统计方法从现有语料中自动提取我们需要的语言语法信息。从实例中抽取语言转换规则,将基于实例的机器翻译作为研究技术来建立语言规则基础,而不是单纯用来进行类比翻译。
  
  通过一个归纳的过程,从大量例句中提出抽象的规则 。这样传统的基于规则的机器翻译方法发展成为以规则为基础,语料库为辅助的机器翻译方法。这种翻译模型可以称之为混合型机器翻译系统(Hybrid MT)。
  
  2.2多引擎机器翻译系统(Multi-Engine MT):
  
  这种机器翻译系统的基本思想是几架机器翻译引擎同时进行并行翻译,并行翻译的这几架翻译引擎分别基于不同的工作原理,给出多个翻译结果,然后通过某种机制或算法筛选并生成最优翻译结果进行输出。
  
  多引擎机器翻译系统的一种工作方式如:接收到源文字后,先将文字转化为若干文字片段,由多个机器翻译引擎进行并行翻译,各个文字片段均得到多个翻译结果, 通过某种机制选择最优的翻译片段组成最优组合,最后输出最优的翻译结果。
  
  或者是接收到源文字后,由多个机器翻译引擎进行并行翻译,得到多个翻译结果,然后对各个翻译结果进行字词的比较,通过某种假设检验和算法,选择适当的字词翻译组成最优翻译结果输出。
  
  2.3. 基于知识的机器翻译系统(Knowledge-Based MT):
  
  在机器翻译研究中,人们越来越发现在翻译过程中正确的理解、领会源语言的重要性。语言有着其复杂性。其中语言的模糊性是各种机器翻译系统所面对的最顽固的难题。
  
  语言的模糊性指语言文字同一表层结构对应着两种或两种以上的深层结构,简单说就是一种形式对应着两种或两种以上的解释,必须通过上下文内容的提示和综合知识背景、常识才可能做出正确的诠释。
  
  受人工智能,知识工程的发展影响,人们开始强调对源语言更为彻底的理解,提出不仅需要进行深层语言分析,还需要进行世界知识的积累和处理,建立知识库,以助于理解语言。
  
  通过对世界知识的了解,解决机器翻译中遇到的语言模糊问题。为了从根本上彻底的解决机器翻译所面对的语言的模糊性问题,人们提出了基于知识的机器翻译系统。
  
  2.3.1基于语义网的机器翻译(Semantic Web based Machine Translation, SWMT):
  
  是基于知识的机器翻译系统的一种实现方式。语义网(Semantic Web),指通过某种技术,将现有网络上的知识内容转化为机器可以辨识的内容,成为机器翻译的世界知识库。
  
  这些理论基于Tim Berners-Lee提出的观点知识一旦经定义和形式化后,便可以通过任意方式访问。万维网最初的设计是希望它简单,去中心化并且尽可能的易于互动。
  
  网络的发展证明它是一个巨大的成功。然而,网络上面的信息都是面向人类大脑的。为了让计算机也能够接受和利用这些信息资源,在新的世纪一种扩展和补充性质的技术出现了, 称为W3C,Semantic Web3 (三维语义网)。
  
  三维语义网络的基础技术是数据格式的资源描述构架( ‘Resource Description Framework’,RDF), 它定义了一种结构,用一种自然的方式来描述计算机处理的巨大量的数据[8]。目前人们已经 在尝试将现有的机器翻译系统整合入语义网,以充分利用世界知识/专家知识, 提高机器翻译质量。
  
  3.语音翻译(Speech Translation):语音翻译是与文字翻译相对应的一种机器翻译分类,与前面的分类有着不同。
  
  但是有着广泛的应用,如日常交谈、电话通话、会议讲话等对语音交流内容的自动翻译,在实际应用中非常重要。
  
  语音翻译在翻译之前增加了一个语言识别(Speech Recognition)过程,形成正确的文字内容输入,并且在翻译过程完成后增加了一个语音合成(Speech Synthesis)过程, 形成一个正确的语音内容输出。其中语音识别技术和语音合成技术都有着专门研究,这里不再赘述。

相关阅读 Relate

  • 文件机器翻译了能用否
  • 机器翻译后的润色校对和人工翻译
  • 胶州翻译公司是否使用机器翻译(MT)?
  • 翻译知识相关问答
    问:如果翻译的稿件只有几百字,如何收费?
    答:对于不足一千字的稿件,目前有两种收费标准: 1)不足一千字按一千字计算。 2)对于身份证、户口本、驾驶证、营业执照、公证材料等特殊稿件按页计费。
    问:请问贵司的笔译范围?
    答:笔译翻译又称人工笔头翻译, 既通过文字形式的翻译转换, 把源语言翻译成目标语言, 是当今全球经济发展, 政治文化交流的主要方式, 笔译通过文字展现方式, 使全世界上千种语言能够互通有无, 每天都有数以亿计的文字被翻译或转译, 笔译肩负着世界各国经济文化发展的重任, 是各国各民族的文化大使, 我们的笔译领域涉及十大类专业领域和五百多种不同的分领域。
    问:是否可以请高校教师、学者或学生翻译?
    答:绝对不能,风险自负。许多公司在寻找译者时,首先想到的是当地学校或大学的外语院系。有时,这种做法对于供内部使用的翻译可能有效,即,您只想了解文件大意,但对于正式的公司宣传材料、手册或者合同文档而言,这样做却风险极大。外语教学需要有特殊的技能,但这些技能却与翻译一篇流利、优美的文章所需的技能完全不同。让学生来做翻译看起来经济实惠,但风险更高,因为他们毫无实战经验,翻译出来的文件基本无法使用。
    问:翻译交稿时间周期为多长?
    答:翻译交稿时间与您的文件大小以及复杂程度有关。每个专业译者的正常翻译速度为3000-4000中文字/天,对于加急的大型项目,我们将安排多名译员进行翻译,由项目经理将文件拆分成若干文件,分配给不同的译员进行翻译,翻译后由项目经理进行文件的合并,并经统一术语、审校、质控、排版等翻译流程,最终交付给客户。
    问:提供一个网站的网址,能够给出翻译报价吗?
    答:对于网站翻译,如果您能提供网站的FTP,或您从后台将整个网站下载打包给我们,我们可在10分钟内给出精确报价。同时,只要您提供原始网页文件,我们会提供给您格式与原网页完全一致的目标语言版本,可以直接上线使用,省却您的改版时间。
    问:为什么标点符号也要算翻译字数?
    答:①根据中华人民共和国国家标准GB/T 19363.1-2003 对翻译行业服务规范的要求,中文字数统计是以不计空格字符数为计算单位的。标点符号算翻译字数是统一的行业标准。 ②标点符号在不同的语种中,有不同的表达方式,例如中文的标点符号大多是全角的,英文的无特殊设置都是半角的,而且如果一句话或一段内容夹杂两种不同的语言,标点符号的规则就相对复杂,对于翻译文件来说,标点符号的部分也是很费时。 ③另外,标点符号在句子中对句子语境等的限制因素,使得标点对句子、对译员翻译判断等起到一定的要求。所以,该部分也要计算在内。 ④可能我们平时不是很注重标点符号,其实在文字表达中,标点符号的重要不亚于单字单词,一个标点符号可以改变全句话的意思,而我们的工作也是做到了这一点,保证每个标点符号的准确,保证译文表达的意思和原文一样。
    问:需要与你们公司什么人接洽翻译业务呢?
    答:我们公司采取专属客服服务模式。为企业客户配备专属客服,一对一沟通具体翻译需求,组建专属译员团队。
    问:为何每家翻译公司的报价不一样?
    答:大家都知道一分价格一分货,在翻译行业里更为突出,译员的水平是划分等级的。新开的翻译公司或不具备翻译资质的公司为了抢占市场,恶意搅乱,以次充好,低价吸引客户。
    问:为什么数字、字母也要算翻译字数?
    答:根据中华人民共和国国家标准GB/T 19363.1-2003 对翻译行业服务规范的要求,中文字数统计是以不计空格字符数为计算单位的。而数字、字母也是包含在其中。而对翻译公司来说,数字和字母也要算翻译字数的原因还包括以下两个方面: 首先,我们的收费都是根据国家颁布的翻译服务规范来收取翻译费用,对待收费我们都是统一对待的,其次,数字和字母也是文章中的一部分,特别是在一些商务文件中,数字就是文件的主题,所以也是一样要收费的。 另外,纯数字字母需要核对、录入,比翻译一个词语更麻烦,翻译是大脑里面概念形成的,而纯数字字母是要严谨的核对、录入才能实现的,这将会花费更多的时间,所以我们会把数字和字母也算成字数。 但是有一种情况除外,如审计报告里面那种数据很多而且又不需要我们翻译可以直接保留的,这部分我们可以不计算在内。
    问:请问贵司每天的翻译量是多少?
    答:我们公司最高翻译记录为一天翻译50万字。原则上我们会在约定的时间内完成,但是时间和质量是成正比的,慢工才能出细活,我们建议在时间允许的情况下,尽量给译员充足的翻译时间,以便交付优质的译文。
    本站部分内容和图片来源于网络用户和读者投稿,不确定投稿用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的权利,请联系:187348839@qq.com,及时删除。
    Go To Top 回顶部
    • 扫一扫,微信在线