贝瓦儿歌恭喜恭喜你:[转载]双语语料库及其应用研究 - carldy的博文 - 科学网

来源:百度文库 编辑:九乡新闻网 时间:2024/05/01 21:54:55
[转载]双语语料库及其应用研究
已有 717 次阅读 2010-12-16 22:09 |个人分类:语料库与翻译学研究 Corpus-based Translation Studi|系统分类:论文交流|关键词:双语语料库;对比分析;翻译
这里转载的是《中国英语教育》2005年第2期的论文:
双语语料库及其应用研究
吴昂,黄立波
(北京外国语大学 中国外语教育研究中心, 北京 100089)
摘要:本文首先介绍语料库的发展历程和语料库的主要类型及其应用研究领域,然后综述了基于双语语料库的语言对比分析和翻译研究,并讨论了研究方法和今后课题。
关键词:双语语料库;对比分析;翻译
中图分类号:H030    文献标识码:A
随着计算机技术和语料库语言学的快速发展,大规模语料的收集、整理和标注加工已经实现。在此基础上,如何将描述与分析、定性与定量有机结合起来以求充分解释各种语言现象,是语料库语言学的重要课题。本文主要探讨了双语语料库在语言对比分析、翻译研究等方面的应用问题。
1. Corpus的含义及语料库发展
英文corpus一词源于拉丁语,本意为“body”(身体、躯体)。18世纪后,该词开始用于指称“关于某一主题文字形式的汇编、全集”;到20世纪50年代,corpus一词逐渐具有现代意义上的“语料库”的含义,指“用于进行语言分析而收集的大量书面语或口语资料”(OED,1989:959);60年代第一个机读语料库—布朗语料库(the Brown Corpus)(Kennedy 2000:23;Kenny 2001:24)在美国创建,标志着现代计算机语料库的诞生,corpus一词也演化到了现在的意义1,成为“语料库”。
人们通常误以为语料库是伴随计算机的发明而逐步出现的,其实原始意义上的手工语料库出现得更早,甚至可以追溯到中世纪(杨惠中 2002:46)。按照Kennedy的说法,最早涉及语言研究性质的语料库始于18世纪,是为基督教《圣经》所作的词汇索引,用于语汇检索和证明《圣经》各章节间的一致性(Kennedy 2000:13-14)。Francis(1992)认为计算机出现之前的最早的语料库开始于1775年Dr. Johnson编写的《英语词典》(A Dictionary of the English Language)(见Kenny 2001:23-24),因为这部词典不仅收词丰富,释义准确,还大量引用著名作家及其经典作品中的语言来说明词义和用法。然而,第一个现代意义上的语料库却应当毫无争议地归功于Randolph Quirk于20世纪50年代末在伦敦大学建立的“英语用法调查”(Survey of English Usage)语料库2(同上:24;王克非,2004:3)。语料库从本质上讲,就是“依照某种原则方式所收集的大量文本总汇”(Kenny, 2001: 22)。而今天我们在语言学研究中所谈到的语料库,是指运用计算机技术,按照一定的语言学原则,为了特定的研究目的而大规模收集并贮存的真实语料,这些语料经过一定程度的标注,便于检索,可应用于描述和实证研究。由此可见,以计算机技术的应用为标志,语料库的发展经历了三个阶段:原始语料库、现代语料库和当代语料库。原始意义上的语料库主要指计算机出现之前以语汇索引、词典编纂、方言研究、语言教学研究和语法研究为主要代表的原始手工语料库,其最显著的特点就是对经典文本语料的手工收集。现代意义上的语料库包括运用计算机技术大规模收集多种文本语料的电子语料库,其主要有三个特点:大规模的真实语料;经过一定的标注处理;便于检索。当代语料库是指90年代以COBUILD英语语料库、朗文语料库(LONGMAN)、英国国家语料库(BNC)以及国际英语语料库(ICE)为代表的超级语料库(mega-corpora),它们规模庞大,大都有上亿词的容量,覆盖面更宽,应用范围更广(见表1)。
表1 语料库发展的三个发展阶段
发展阶段
时期
特点及应用
典型代表
原始语料库
18世纪-20世纪初
手工收集原语料;无标注。
主要应用于语汇索引、词典编纂、方言研究、语言教学研究和语法研究。
Alexander Cruden于1736年出版的钦定版《圣经》语汇检索;Dr. Johnson于1755年出版的《英语词典》(A Dictionary of the English Language)。
现代语料库
20世纪50-80年代
由手工收集向计算机语料库过渡;初步依照一定语言学原则进行标注。主要用于语法分析和语言对比研究,逐渐涉及其它领域。
Randolph Quirk的“英语用法调查”(the Survey of English Usage)语料库;布朗语料库(the Brown Corpus);兰卡斯特-奥斯陆-卑尔根(LOB)语料库等。
当代语料库
20世纪90年代至今
语料库呈现超大规模趋势;类型更加丰富,应用更加广泛,包括:语言研究、对比研究、翻译研究、教学研究词典编纂,以及机器翻译和软件开发等。
共建英语语料库(the Cobuild Bank of English);朗文语料库(Longman);英国国家语料库(BNC);国际英语语料库(ICE)等。
需要指出:1. 语料库的演变过程说明“语料库”这一概念由来已久,其雏形早在18世纪甚至更早就已经出现,今天语料库语言学中所讲的“语料库”是一个以计算机技术应用为标志的现代概念,也就是说“corpus”或“corpora”并不一定等于现代意义上的“语料库”;第二,早期的语料库主要是对原语料(raw material)的人工收集,以书面语为主,这些材料用于语汇索引、词典编纂、语法研究、方言研究和语言教学研究;现代意义上的语料库种类繁多,主要借助计算机手段,在一定的语言学理论的指导下对语料在各个层次上进行了标注,应用范围涉及语言研究、对比研究、翻译研究、教学研究以及词典编纂等众多领域;第三,当代语料库的设计、研制和应用以印欧语系内部语种(尤其是英语)为主,尚未普及到世界各种语言。
2.语料库的分类与应用
语料库是一个多角度、多层次的研究工具,因此对其分类也显得纷繁复杂,没有统一的划分。从语料内容上可分为:书面语与口语、共时与历时,以及原创语言与翻译语言;从选材方式上可分为:抽样型和监控型;按照语言数量可分为:单语的、双语/平行的和多语的;从用途方面又可分为:普通语料和专门用途语料。而且每个语料库还可进一步细分成一些子库。一般来说,研究目的与方法是语料库类型的根本决定因素,基于此,我们可以对语料库做以一分类(见图1):
图1 语料库的简单分类(参见Granger 2003;王克非 2004:8)
以上分类主要依据语言数量、文本间是否具有翻译关系或对齐关系(王克非 2004:6-9)。大体上说,语料库的应用涉及以下几个方面:语言研究、对比研究、翻译研究、语言/翻译教学研究,单语/双语词典研编以及机助/机器翻译与翻译软件开发等(如表2)。
表 2 语料库的应用
语料库类型
语言研究
对比研究
翻译研究
语言/翻译教学
单/双语词典研编
机助/翻译与翻译软件开发
单语语料库
单一原创语言


单一翻译语言


双语语料库
翻译




对应/平行






类比


多语语料库
翻译




对应/平行






类比


从表2可以看出,与翻译研究有关的语料库主要包括三类:翻译语料库,对应/平行语料库, 其中以平行语料库最为突出,其最大的特点在于包括了两种原创语言文本和与之对应的两种翻译语言文本,可以有多种用途。语言研究和翻译研究向来重视语言材料的收集,而基于大规模电子语料文本库的语言与翻译研究更具有以下四个特点:第一,大规模的真实语料;第二,共时与历时的结合;第三,定性研究与定量研究的结合;第四,理论与实践的结合。这些特点集中体现了理论研究中的继承性与创造性。
3. 基于双语库的语言对比分析
对比语言学的源头大约可以追溯到19世纪末20世纪初的对比分析3研究,但最早提出“对比语言学”的通常认为是20世纪美国的语言学家Benjamin Lee Whorf(王宗炎 2000:112),而后这一学科经历了一个盛衰起伏的过程。对比语言学与翻译研究有着一种不解之缘,二者统一于两种不同语言之间的相互关系当中。两种研究的最终目标不尽相同,但两个领域却存在一种互补关系。对比分析是翻译实践不可或缺的步骤,翻译实践是对比分析的重要手段,在一定程度上二者互为研究方法和对象。对语料的关注是对比语言学和翻译研究最大的共同之处,近年来语料库语言学与计算机技术的结合和飞速发展,使得对大量真实语料(尤其是双语/多语平行语料)的对比分析成为可能,这为对比语言学和翻译研究提供了新的契机。
基于单一语言语料库的语言研究成果非常丰富,基于双语语料库开展的语言对比分析还不多见。这主要是因双语库的建设难度较大,相对滞后。不过随着双语库逐渐为学界所重视,这类研究也开始兴起。其中涉及汉语的双语对比分析有肖忠华、王克非、熊学亮、曹大峰、施建军、柏晓静和詹卫东等(见王克非等 2004),论及语言的体、被动句、把字句、致使结构、动结结构等。国外在印欧语系各语言之间也开展了一些研究。例如Kristin Davidse和Liesbet Heyvaert(见Granger et. al. 2003)的“论英语与荷兰语中的中动结构”(On the middle construction in English and Dutch)一文,将语料库和对比研究结合起来,从微观角度针对现有英语与荷兰语中有关中动结构的理论提出了新的假设。作者指出对中动结构的现有分析方法主要有两种:1)作格法(the ergative view),此种观点认为,中动结构中不存在明确的施事者(Agent),因此结构中只有一个参与者,施事行为归于主语,属于唯动格结构的范畴;2)及物法(the transitive approach),该种观点认为中动结构包含两个参与者—隐含的施事者和受事者性质的主语,强调主语的受事者性质。由此可以看出,前一种观点认为中动结构属于包含一个施事主语的主动语态结构,而后者视其为主语为受事者的被动结构。两位作者指出以上两种观点均存在缺陷,提出中动结构本身赋予了主语与动词短语之间一种内在的配价关系,由中动结构所建立的非施事主语与主动动词短语之间的关系从根本说是情态性(modal)的。André Hantson在其“英语动名词结构与挪威语限定词+不定式/at从句结构”(English gerund clauses and Norwegian det + infinitive/at clause constructions)一文(见Granger et. al. 2003)中从英语-挪威语对比的角度入手,探讨了两种语言特定结构之间的特点及其翻译问题。文中既有对传统观点的维护,也有借助语料库分析方法对两种语言进行相关统计分析和翻译转换问题的探讨。但是这类语言对比分析的研究还不丰富,有待进一步开展。
4. 基于双语库的翻译研究
纵观翻译理论发展的历史,到20世纪90年代初为止,翻译研究经历了语文研究、语言学研究,文化研究、哲学研究和认知研究五个范式。早期的翻译理论以文学翻译为主要研究对象,以词汇与语义的关系、是否忠实于原作、译文风格取向以及译者的创造力等因素来建立翻译的方法论体系,这一研究范式开创了翻译理论的先河,为后来翻译理论的发展奠定了基础。然而这些理论大多局限于评论或批评性质的个人经验总结,既抽象又模糊。到了20世纪50、60年代,以Eugene A. Nida和J. C. Catford为代表的学者建立了翻译研究的语言学方法体系。他们以语言学理论为指导,采用形式分析的方法从词汇、语法、句法、语义、语用、语篇、功能等层面对原语文本和译语文本进行分析,期望对翻译问题进行所谓的‘科学’解释。这一范式一直延续到今天,依然是翻译研究的主流方法之一。翻译的文化研究范式出现于80年代末,以James Holms(1988)的“翻译研究的名与实”(The Name and Nature of Translation Studies)一文为起点,Susan Bassnet和André Lefevere提出了翻译研究的文化转向,将研究的重心转向了翻译活动所涉及的诸多社会和文化因素。其中以Even Zohar多元系统理论最为突出,改变了以往以“对等”为核心的视角,使翻译研究取得了新的突破。翻译的哲学研究范式由来已久,早在19世纪的Schleiermacher和Walter Benjamin所创立的诠释学(hermeneutic)翻译研究方法就已经为后期的解构主义翻译观奠定了基础。翻译认知研究范式以认知科学的研究为基础,旨在探究翻译过程中译者头脑中的“黑匣子”(black box);这个领域的研究方兴未艾。以上这五种范式依然渗透于今天的翻译研究当中,使翻译研究呈现一种跨学科的态势。然而目前翻译研究最为突出的一个问题就是定性研究与定量研究相脱节,理论研究与语言转换的实践相脱节,缺乏客观的量化标准和评估模式。建立基于语料库的翻译研究新方法可以弥补上述不足。
基于语料库的翻译研究方法是建立在以上各种方法论基础之上的,是各种研究方法的整合与延续。它以语言学理论和科学统计方法为指导,以对双语文本转换的真实语料为研究对象,兼及翻译活动中的各种超语言因素,对翻译进行历时与共时的研究,使得翻译理论的研究与语言转换中语料实例重新科学地结合起来。从本质上看,语料库与翻译研究之间存在一定的内在联系。因为翻译研究不外乎涉及到文本、文化、译者、翻译过程等语言及超语言因素,而语料库,尤其是双语对应/平行语料库不仅包括了语言信息,也包括了翻译过程涉及的各种超语言因素。
Johansson认为语料库方法的最大优势在于它可以将理论研究与教学实践真正结合起来。在文末,他对未来的研究方向提出了三点建议:第一,多语语料库研究;第二,翻译语料库和学习者语料库研究;第三,新一代语法书和词典研编。Sara Laviosa以“语料库与翻译研究”(Corpora and translation studies)为题,提出了“基于语料库的翻译研究”(corpus-based translation studies)范式。她从Gideon Toury提出的“描述翻译研究”(Descriptive Translation Studies)与基于语料库的翻译研究之间的联系入手,指出了二者的共性:第一,注重从实证的角度对真实语料进行直接观察;第二,对语料库文本的选择并非基于某个固定的定义,而是建立在共识性标准和外部分类的基础上,必要时采取随机抽样的方式;第三,两种方法都坚持认为从实证性研究中得出的一般性结论只有建立在对大量文本语料研究的基础之上才能保证其效度;第四,适用于研究对象的各种原则都要经过大量系统的研究来发现,并以概率原则为表述形式。由此可见,翻译研究的领域尚未最终划定,基于语料库的翻译研究范式是在原有研究范式的基础上孕育产生的,其最大的优势在于其新颖灵活的研究方法和关于不同语言及翻译现象的大量真实语料。
按照Toury的观点,翻译理论研究与描述性翻译研究之间是一种互惠的关系,“换句话而言:描述性翻译研究所积累的发现将有助于一系列连贯‘法则’的制定,这些‘法则’能够说明与翻译活动相关的各个变量之间的内在关系”(Toury 2001:16)。而这样一种互惠的关系是建立在对双语文本的转换进行描述的基础之上。他同时指出,纯翻译研究与翻译应用研究之间是一种单向关系,即纯粹的翻译研究只服务于翻译应用研究(同上:17-18)。事实上翻译理论研究、描述性翻译研究和翻译应用研究三者之间存在一种内在的联系:翻译理论提出某种假设或方法论,通过描述性研究对其进行验证,产生完善的方法论体系,然后将其投入具体应用领域。在整个过程中,对语料的实证性分析与描写起着举足轻重的作用。基于语料库的翻译研究是指将原语/翻译文本语料库应用于对翻译产品或过程的实证性研究、对理论建构的阐述以及译员培训等方面的学科分支,它的最大特点就在于借助实证基础上的方法和理论原则,使用归纳和演绎的方法来研究翻译产品和翻译过程。这种新研究方法促进了理论研究、实证研究和应用研究之间的对话(Laviosa 2003,参见Granger et. al. 2003:45)。因此,基于语料库的翻译研究方法使翻译理论的模式更加科学和完善,这一方法的继承性集中体现在其与描述性翻译研究的共性方面:第一,注重从实证的角度对真实语料进行直接观察;第二,对语料库文本的选择并非基于某个固定的定义,而是建立在共识性标准和外部分类的基础上,必要时采取随机抽样的方式;第三,两种方法都坚持认为从实证性研究中得出的一般性结论只有建立在对大量文本语料研究的基础之上才能保证其有效性;第四,适用于研究对象的各种原则都是经过大量系统的研究来发现,并以概率性规则作为表述形式。(同上:49-50)这样的研究方法具有三个优势:第一,建立不同语言之间在语义层次上的真实对应(这里的“对应”是一个宽泛的概念)。第二,对先前的翻译理论和假设进行重新验证。第三,提出新的假设并加以验证。
Olohan(2003)指出语料库语言学的研究对象不是语言能力(linguistic competence)而是语言应用(linguistic performance),所以基于语料库的翻译研究就是以文本语料为基础,从直觉出发产生关于翻译现象的假设,并对这些假设进行系统的研究。她继而提出了翻译研究中语料库研究方法的理论框架:第一,描写研究。显然,语料库的方法是从真实的文本语料出发,是对翻译中语言运用的描写;第二,普遍性研究。基于语料库的研究方法以认同/原型的翻译概念为基本概念工具,以多元系统理论(the Polysystem Theory)为指导研究翻译活动中的普遍现象;第三,翻译的语境化研究,即借助翻译文本来重新构建特定社会文化环境中的各种规范和限制性因素。作者同时指出,尽管语料库的研究方法涉及大量的量化数据,但不应过分强调这一方法的“客观性”或“科学性”,因为基于语料库的翻译研究方法同样离不开主观的定性分析。
5.小结
以上着重讨论了双语语料库的发展、功用以及在语言对比、翻译研究等方面的应用研究。将语料库应用于翻译研究的优势不言而喻,但语料库也不是万能的。因此,我们在利用语料库的同时,也要注意其不完善之处。第一,文本语料不可能穷尽。基于语料库的语言分析和翻译研究主要是建立在对真实语料直接观察基础之上的归纳性研究,那么,语料库要多大才称得上有代表性、才能依据它得出有普遍意义的结论?第二,语料库(尤其是平行语料库)的选材过程通常以建库者的母语语言系统为出发点(Granger et. al.:47),那么选材的标准难免会受到本族语价值体系的干扰,这使得文本选择带有一定的主观性和偶然性。应当用什么标准来最大限度地摆脱这种影响?第三,原创语言作品以及翻译作品的质量应当以什么样的标准来衡量?第四,双语文本的对应问题。上文已经提到对应/平行语料库相对而言与翻译研究的关系最紧密,双语文本间的对应除了词级、句级、段级或篇章级等形式对应之外,语义对应方式的研究是否应当作为翻译研究的重点呢?因为对应语料库的最大特征就在于双语的平行对应,使我们对两种不同语言之间的“一一对应”有了重新的认识,这一点正好应验了雅柯布森(1959)的观点:“语言之间真正的区别不在于说话者可以或者不可以表达什么,而在于说话者必须或者决不能表达什么”。(钱军等译 2001:266)。第五,目前世界上印欧语系之外语言(如汉语、日语、朝鲜语、马来语、泰语等)的基于双语库的对比分析和翻译研究成果都还很少,有待于我们努力。拿汉语来说,英汉两种语言同为世界上的两大语种,分属不同的语系,基于英汉/汉英平行语料库的研究一定会深化我们对许多语言问题的认识。
注释
1.“corpus”一词在意义上大致经历了这样一个变化过程:“身体”→“尸体”→“汇编,全集”→“(口语或书面语的)语料”→“语料库”(参见OED,1989:959)。《牛津高阶英汉双解词典》(第6版)中对“corpus”一词的释义为“(书面或口语的)文集,文献;汇编;语料库”(p.376),由此也可以看出语料库的发展过程。
2. “英语用法调查”语料库仍以人工收集为主,既包括书面语也包括口语,建立该语料库的初衷是要编写一部‘标准’英语语法,起初没有计划借助计算机技术。但其中的口语部分经过计算机处理包括在伦敦-隆德语料库中(Svartvik,1990,转引自Kenny,2001:24),因此它是语料库由人工处理向计算机处理过渡阶段的代表。
3.“对比语言学”(contrastive linguistics)与“对比分析”(contrastive analysis)二者可以互换使用,王宗炎先生还指出:“对比分析或对比语言学不同于比较语言学(comparative linguistics)。比较语言学是历时性研究,它要追究语言之间的谱系关系;对比分析是共时性研究,它要追究语言之间的一致性和分歧性—尤其是分歧性。”(王宗炎2000:111)
参考文献
[1]       Granger, S., J. Lerot and S. Petch-Tyson (eds). Corpus-based Approaches to Contrastive Linguistics and Translation Studies [C]. Amsterdam: Rodopi, 2003.
[2]       Kennedy, Graeme. An Introduction to Corpus Linguistics [M]. Beijing: Foreign Language Teaching and Research Press, 2000.
[3]       Kenny, Dorothy. Lexis and Creativity in Translation: A Corpus-based Study [M]. Manchester: St. Jerome Publishing, 2001.
[4]       Laviosa, Sara. Corpus-based Translation Studies: Theory, Findings and Applications [M]. Amsterdam: Rodopi,  2002.
[5]       Olohan, Maeve. Introducing Corpora in Translation Studies [M]. London and New York: Routledge, 2004.
[6]       Popper, Karl. Objective Knowledge: An Evolutionary Approach (revised edition) [M]. Oxford: Oxford University Press,1979.
[7]       Sinclair, John. Corpus, Concordance, Collocation [M]. Shanghai: Shanghai Foreign Language Education Press,1999.
[8]       Toury, Gideon. Descriptive Translation Studies and Beyond [M]. Shanghai: Shanghai Foreign Language Education Press, 2001.
[9]       黄立波 柯飞, 2005, 从多个视角探究翻译[J],《外语与翻译》, 2005 (2).
[10]   王克非 等, 《双语对应语料库:研制与应用》[M]. 北京:外语教学与研究出版社,2004.
[11]   王宗炎,《语言问题探索》[M]. 上海:上海外语教育出版社,1985/2000.
[12]   雅柯布森. 罗曼, 《雅柯布森文集》(钱军等 译注)[M]. 长沙:湖南教育出版社, 2001.
[13]   杨惠中, 《语料库语言学导论》[M]. 上海:上海外语教育出版社, 2002.
Parallel Corpora and Their Application in Contrastive Analysis and Translation Studies
WU Ang, HUANG Li-bo
(National Research Center for Foreign Language Education, Beijing Foreign Studies University, Beijing, 100089, China)
Abstract: This paper introduces the development of corpus and its major types; a survey is made of the contributions of parallel corpus to contrasitve linguistics and translation studies. Also discussed is the methodologies and future fields of study concerning this discipline.
Key words: parallel corpora; contrastive analysis; translation
收稿日期:2005-06-10;本刊修订稿,2005-06-30
作者简介:吴昂,北京外国语大学中国外语教育研究中心研究员,研究方向为语言学和翻译学;黄立波,北京外国语大学中国外语教育研究中心博士生,研究方向为翻译学。
[转载]双语语料库及其应用研究 - carldy的博文 - 科学网 杀虫剂的作用机理及其科学应用 叶黄素及其应用研究 应用基础研究:冯诺依曼原理 - stone1971111的博文 - 构建全球华人科学社区 ... 地坪涂料的分类及其施工应用研究 [转载]【转载】寻找底线 - 马建华的博文 - 科学网 一些语料库工具和语料库资源的网址1 [转载]《宣纸的种类及其在书画中的应用》 教师博客研究档案 《博客及其引申的知识管理在中小学教育中的应用研究》 [转载]Hadoop基本流程以及简单应用的开发-周园春的博客-科学网 做研究的是10个技巧(转载) - 科研经验 - 科学网论坛 - Powered by Di... [转载]Matlab数据库编程 - chawn的博文 - 构建全球华人科学社区 - 科学网 研究生学习研究的经验之谈 - 科学网 唯美的博文及其他 (转载) 双语:美国科学基金会被批研究项目太古怪 绩效考核的方法及其应用 交互白板及其在我国中小学课堂教学中的应用研究 双语:研究:边工作边上网的员工效率更高 [转载]一张美女图,不同的位置的思维 - baul的博文 - 科学网 红色纳米硒在动物科学领域中的应用研究 [转载]我们所感知的世界是否真实 - hongkunhui的博文 - 科学网 [转载]四部委密集调研转基因生物 - 蒋高明的博文 - 科学网 [转载]方舟子又涉嫌抄袭,这回是关于转基因玉米 - 吴国胜的博文 - 科学网 表格的合理应用研究