近年来,无论是在语言信息处理领域还是语言学研究领域,语料库的重要作用均已经得到充分的认可,国际国内在语料库的建设和研究方面均做了大量的工作。下面是几个双语语料库几个设计原则。
1 语料库的加工深度
语料库不是任意文本的任意堆积,为了发挥语料库的作用,通常都需要对语料库进行一定的加工,进行何种加工和加工深度如何通常和应用目标有关。对于汉英双语语料库而言,基本的加工包括对语料进行各级对齐工作,其中最为重要的是句子一级的对齐,这是各种应用对双语语料库的一个最基本的需求。其他的加工包括:对汉语部分进行切词、词性标注以及注音;对英语部分进行断词、形态还原和词性标注;汉英双语语料在词汇一级和短语一级对齐。对双语语料库的加工越多,双语语料库可以提供的信息也就越多,但同时也意味着工作量的剧增。
根据工作的需要,目前我们主要进行句子一级的对齐工作,但在制定规范时也充分考虑了进行其他可能的加工。
2 语料库编码
双语语料库收录的文本通常不只一个来源,对汉英双语语料库而言更是如此,相关可用的电子文本远远不如单语文本多。要建立一个相对大规模的双语语料库,多渠道搜集语料就是唯一的选择。这同时带来一个问题就是语料文本格式各异,难以统一处理和管理。同时,作为一个基础资源,经过加工处理的语料库也需要以一种和应用以及平台无关的形式存在而支持相对广泛的应用。为此需要对双语语料库进行统一编码,从而方便双语语料库的管理、统一处理、共享和交换。
目前在信息处理界普遍使用的XML 语言作为编码的元语言,由于XML 语言的普及和业界的广泛支持,基于XML 语言的编码体系将容易获得广泛的软件支持。
3 语料库文本收录原则
对于语料库文本收录,通常首先要考虑的问题是语料的平衡性,理想的情况是收入语料库的文本在题材、语体、时间跨度等方面有一个合理的平衡,使得语料库具有所谓的平衡性,但平衡原则往往难以保证,一方面语料的平衡与否缺乏可以操作的评价办法;另一方面语料库的建设通常都有潜在应用目标,单纯追求平衡的原则也并无必要;
在建设汉英双语语料库时,由于涉及两种语言,高质量的双语语料远远不如高质量的单语语料那样容易收集,平衡性则更难保证,因而我们的原则首要强调语料的质量,要收入语料库的文本,其文字质量和译文质量需要得到认可,在此前提下,再进一步考虑语料的代表性。
4 语料库的描述内容
在双语语料库描述何种信息将直接关系到语料库的使用问题,为了有效支持汉英双语语料库在机器翻译研究中的应用以及兼顾其他应用,目前汉英双语语料库中主要标记了下面的信息:
(a)文本属性信息,描述了收入语料库中的汉英文本标题、作者、文体、语体、领域和创作时代方面的属性信息。
(b)文本结构信息,标记了收入语料库中汉英文本的标题、子标题、段落、句子的边界信息。
(c)双语对齐信息,标记了收入语料库中汉英文本在句子一级的对齐互译关系。
翻译知识相关问答
问:如果翻译的稿件只有几百字,如何收费?
答:对于不足一千字的稿件,目前有两种收费标准: 1)不足一千字按一千字计算。 2)对于身份证、户口本、驾驶证、营业执照、公证材料等特殊稿件按页计费。
问:请问贵司的笔译范围?
答:笔译翻译又称人工笔头翻译, 既通过文字形式的翻译转换, 把源语言翻译成目标语言, 是当今全球经济发展, 政治文化交流的主要方式, 笔译通过文字展现方式, 使全世界上千种语言能够互通有无, 每天都有数以亿计的文字被翻译或转译, 笔译肩负着世界各国经济文化发展的重任, 是各国各民族的文化大使, 我们的笔译领域涉及十大类专业领域和五百多种不同的分领域。
问:是否可以请高校教师、学者或学生翻译?
答:绝对不能,风险自负。许多公司在寻找译者时,首先想到的是当地学校或大学的外语院系。有时,这种做法对于供内部使用的翻译可能有效,即,您只想了解文件大意,但对于正式的公司宣传材料、手册或者合同文档而言,这样做却风险极大。外语教学需要有特殊的技能,但这些技能却与翻译一篇流利、优美的文章所需的技能完全不同。让学生来做翻译看起来经济实惠,但风险更高,因为他们毫无实战经验,翻译出来的文件基本无法使用。
问:翻译交稿时间周期为多长?
答:翻译交稿时间与您的文件大小以及复杂程度有关。每个专业译者的正常翻译速度为3000-4000中文字/天,对于加急的大型项目,我们将安排多名译员进行翻译,由项目经理将文件拆分成若干文件,分配给不同的译员进行翻译,翻译后由项目经理进行文件的合并,并经统一术语、审校、质控、排版等翻译流程,最终交付给客户。
问:提供一个网站的网址,能够给出翻译报价吗?
答:对于网站翻译,如果您能提供网站的FTP,或您从后台将整个网站下载打包给我们,我们可在10分钟内给出精确报价。同时,只要您提供原始网页文件,我们会提供给您格式与原网页完全一致的目标语言版本,可以直接上线使用,省却您的改版时间。
问:为什么标点符号也要算翻译字数?
答:①根据中华人民共和国国家标准GB/T 19363.1-2003 对翻译行业服务规范的要求,中文字数统计是以不计空格字符数为计算单位的。标点符号算翻译字数是统一的行业标准。
②标点符号在不同的语种中,有不同的表达方式,例如中文的标点符号大多是全角的,英文的无特殊设置都是半角的,而且如果一句话或一段内容夹杂两种不同的语言,标点符号的规则就相对复杂,对于翻译文件来说,标点符号的部分也是很费时。
③另外,标点符号在句子中对句子语境等的限制因素,使得标点对句子、对译员翻译判断等起到一定的要求。所以,该部分也要计算在内。
④可能我们平时不是很注重标点符号,其实在文字表达中,标点符号的重要不亚于单字单词,一个标点符号可以改变全句话的意思,而我们的工作也是做到了这一点,保证每个标点符号的准确,保证译文表达的意思和原文一样。
问:需要与你们公司什么人接洽翻译业务呢?
答:我们公司采取专属客服服务模式。为企业客户配备专属客服,一对一沟通具体翻译需求,组建专属译员团队。
问:为何每家翻译公司的报价不一样?
答:大家都知道一分价格一分货,在翻译行业里更为突出,译员的水平是划分等级的。新开的翻译公司或不具备翻译资质的公司为了抢占市场,恶意搅乱,以次充好,低价吸引客户。
问:为什么数字、字母也要算翻译字数?
答:根据中华人民共和国国家标准GB/T 19363.1-2003 对翻译行业服务规范的要求,中文字数统计是以不计空格字符数为计算单位的。而数字、字母也是包含在其中。而对翻译公司来说,数字和字母也要算翻译字数的原因还包括以下两个方面:
首先,我们的收费都是根据国家颁布的翻译服务规范来收取翻译费用,对待收费我们都是统一对待的,其次,数字和字母也是文章中的一部分,特别是在一些商务文件中,数字就是文件的主题,所以也是一样要收费的。
另外,纯数字字母需要核对、录入,比翻译一个词语更麻烦,翻译是大脑里面概念形成的,而纯数字字母是要严谨的核对、录入才能实现的,这将会花费更多的时间,所以我们会把数字和字母也算成字数。
但是有一种情况除外,如审计报告里面那种数据很多而且又不需要我们翻译可以直接保留的,这部分我们可以不计算在内。
问:请问贵司每天的翻译量是多少?
答:我们公司最高翻译记录为一天翻译50万字。原则上我们会在约定的时间内完成,但是时间和质量是成正比的,慢工才能出细活,我们建议在时间允许的情况下,尽量给译员充足的翻译时间,以便交付优质的译文。