
未来教育探索
Exploration of Future Education
- 主办单位:未來中國國際出版集團有限公司
- ISSN:3079-3637(P)
- ISSN:3079-9511(O)
- 期刊分类:教育科学
- 出版周期:月刊
- 投稿量:3
- 浏览量:323
相关文章
暂无数据
人工与AI翻译在古典诗歌中的对比研究:基于语料库的考察
A Corpus-Based Study of Human vs. AI Translation in Classical Poetry
引言
在人工智能(AI)技术蓬勃发展的当下,其于诗词翻译领域的运用愈发普遍。AI翻译诗词的核心目标在于突破语言界限,助力不同文化背景的读者体悟诗词这一文学奇珍的迷人魅力,为文化的交流互鉴与传承创新开辟崭新路径。
语料库在AI翻译诗词进程中占据着举足轻重的地位。它作为海量文本数据的汇聚之所,为AI翻译模型筑牢了根基,使其得以研习并领会诗词的语言架构、词汇运用方式以及文化内在意蕴等关键知识。借助对大规模语料库的深入剖析与学习,AI模型能够精准提炼出诗词翻译的规则与范式,进而显著提升翻译的精确性与畅达性。
不过,AI翻译诗词亦面临重重困境。诗词以其高度的凝练特质、丰富的意象呈现以及独特的文化品格著称,其语言表述常常超脱于字面意义,需紧密结合文化背景与历史知识予以深度解读。但就目前而言,既有的AI翻译模型在洞悉诗词深层意涵、营造意境氛围以及传递文化意象等维度上尚有欠缺,致使翻译成果可能滋生语义偏差、文化信息遗漏或风格失谐等弊病。
由此可见,深入探究AI辅助翻译诗词之道,摸索构建高品质语料库并使其在诗词翻译中得以有效施展的路径,兼具极为关键的理论价值与实践意义。这不仅有助于促进AI翻译技术在诗词范畴的持续演进,优化诗词翻译品质,更能够为中华诗词文化的传承与弘扬贡献卓越力量。
一、国内外研究现状
国外在AI翻译与语料库建设领域起步早,成果丰硕。OpenAI的GPT-4.0模型以3000亿单词和超40TB语料训练而成,在文本理解与生成上表现优异,能准确理解用户问题并生成自然流畅文本,其多语种互译的翻译能力优势明显,为诗词翻译提供了强大语言处理基础。谷歌通过涵盖书籍、新闻等广泛领域的海量文本训练BERT模型,显著提高了文本翻译、情感识别等任务的准确度,使其在诗词翻译中能更好地把握语义和情感表达。此外,谷歌的PaLM2模型采用包含多种语言和科学数据的改进语料库训练,翻译、推理及代码生成能力大幅提升,对诗词这类富有文化内涵和逻辑推理的文本翻译具有一定借鉴意义。欧洲语言资源协调机构则通过制定数据采集、标注和共享标准,整合欧洲各国及全球语料资源,推动语料库规范化发展,为AI翻译模型提供了丰富且高质量的语料数据,有助于提升诗词翻译的准确性与专业性。
国内在AI翻译与语料库建设方面也积极进取,成效显著。上海外国语大学成立语料库研究院,其团队汇聚了语料库翻译学、语料库语言学、计算语言学、计算机科学、语言智能等多领域专家,致力于建设“一带一路”多语平行语料库、国别与区域研究多语语料库等基础设施,大力推进基于语料库的跨学科研究和语言智能研究,推动产学研合作,培养高端人才,为诗词翻译研究提供了有力的平台支持与人才保障。中国大模型语料数据联盟发布的“书生・万卷”多模态语料库,涵盖网页、书籍、百科等不同来源的清洗后预训练语料,数据规模超2TB;智源研究院联合多家数据单位建设的全球最大中文语料数据库WuDaoCorpora,包含1.2TB中文文本数据、2.5TB中文图文数据,这些大规模语料库为中文诗词的AI翻译提供了丰富数据资源,有助于提升模型对中文诗词语言特点和文化内涵的理解与表达。
然而,当前国内外将AI翻译与语料库建设相结合应用于诗词翻译的研究较少。诗词翻译有其独特难点,其语言凝练、意象丰富、文化内涵深厚,现有的语料库在诗词领域针对性不足,难以满足诗词翻译对文化意象、意境传达等特殊需求。因此,本研究致力于深入探讨如何构建专门针对诗词翻译的语料库,并将其有效应用于AI翻译模型中,以提高诗词翻译质量,弥补现有研究不足,为诗词翻译研究开拓新路径,促进中华诗词文化在全球的传播与交流。
二、研究方法
本研究运用语料库研究法,采集《孔雀东南飞》的原文、AI翻译文本与诸多经典人工翻译文本,构建平行语料库。借助语料库检索工具,对词汇、短语、句式展开定量剖析,像统计词汇频次、词类分布与句子长度等信息,以此比对AI翻译和人工翻译于语言形式方面的差别。采用案例分析法,择取诗里具代表性的段落、诗句,诸如涵盖文化意象(如“鸳鸯”“梧桐”)、修辞手法(如排比、互文)之处,深度探究AI翻译与人工翻译在语义传递、文化内涵重现、艺术效果展现等层面的优劣。
本研究的创新之处在于构建了专属《孔雀东南飞》的多版本翻译语料库,为系统研究给予充足数据依托;从语言形式、语义、文化内涵、艺术美感等多维度综合评定AI翻译,较为全面深入;对比AI翻译与人工翻译,明晰二者优势互补的关系,给翻译实践与研究带来全新视角与思路,还能为优化AI翻译模型提供确切建议,助力古诗词翻译领域的发展。
三、《孔雀东南飞》的AI翻译语料库构建
(一)语料收集
本研究以《孔雀东南飞》的原文及其AI翻译版本作为主要研究对象,同时选取部分经典人工翻译版本作为对比参照,构建多版本平行语料库,确保研究的全面性与科学性。对于原文语料,选取《乐府诗集》等古代文学经典著作中的权威版本,保证原文准确完整。AI翻译版本通过多种途径,借助豆包翻译、有道翻译等知名在线平台获取。收集人工翻译版本时,选用国内知名度与影响力较高的许渊冲先生译本,其在古诗词翻译领域造诣深厚、经验丰富,译本在忠实反映原文内涵与艺术美感方面特色显著。本研究共收集了一篇许渊冲先生的译文和两篇AI平台的译文,分别是豆包和有道翻译平台,三篇译文共计7452个字符。
(二)语料预处理
在收集到原始语料后,需要对其进行预处理,以确保语料的质量和可用性。首先是清洗语料,去除文本中的噪声信息,如多余的标点符号、换行符、空白字符等。对于《孔雀东南飞》原文中的一些特殊符号或古汉语中的生僻字,进行统一的规范化处理,以便后续的分析。例如,将一些异体字转换为正体字,确保语料在文字层面的一致性。
接着进行语料对齐操作,将《孔雀东南飞》的原文与不同版本的AI翻译文本、人工翻译文本按照句子或段落进行一一对应,构建平行语料库。在对齐过程中,充分考虑到古诗词的语言特点,如诗句的分行、韵脚等因素,确保对齐的准确性。
四、《孔雀东南飞》AI翻译的优劣分析
| 原文 | 许渊冲译文 | 豆包翻译 | 有道翻译 |
|---|---|---|---|
| 十五弹箜篌 | Play the lute with ease | played the konghou | plucked plucked instrument |
| 十七为君妇 | to be man's wife | I became your wife | 17 for the king's wife |
| 守节情不移 | a loyal subject of the land | you remained steadfast in your duty | the festival does not move |
| 相见常日稀 | met but seldom from dusk to dawn | we seldom saw each other | I rarely saw her |
| 鸡鸣入机织,夜夜不得息。 | She'd weave at dawn when cocks began to crow;
She'd toil all night and had no time to rest. |
I entered the loom room at cockcrow and had no rest every night | The chicken crowing into the machine weaving, not to rest every night |
在词汇准确性方面,AI翻译存在着一定的局限性。如,诗中“十五弹箜篌”一句,箜篌是一种据传从波斯传入中国的弹拨型乐器,在古代,能否演奏箜篌是衡量女子是否有才学的标志之一。在许渊冲先生的译文中,他将其翻译为“lute”,该词在西方指的是一种类似的弦乐器,如鲁特琴,它们在形态和演奏方式上有相似之处。而对比AI的翻译,网易翻译将其翻译为“plucked instrument”,意为弹拨型乐器,从演奏方式上表现出该词的含义。而豆包翻译则直接将该词翻译为“konghou”,用该词的汉语拼音代替,即不能表现出该乐器的弹奏方式,也不能展示出这个词的真实含义,相对来说容易让读者产生误解。通过上文表格可看出,有道翻译平台的译文相对来说较为直白,没有对古文进行先解释后翻译。在同一个句子中,如“守节情不移”一句,意为坚守臣节专心不移,指焦仲卿在当官之后,坚定做政府官员该做的事情。许渊冲先生和豆包平台的译文都指出为官的职责,而有道平台则是直白的将“节”直译为festival,即节日。再如“相见常日稀”,意为每次相见的时候太阳已经下山了,日薄西山的时候二人才能见面。三种翻译各自用“seldom,rarely”这两个表示很少、几乎不的词语来体现他们相见之难,这也体现出AI翻译也能够做到相对精确。而仅有许渊冲先生的译文体现出了“日稀”,而豆包和有道则并未做到精确。由此可看出,人工翻译会考虑到各个词的深层内涵,用更加具象化的方式传达深层次的情感和寓意。
| 许渊冲译文 | 豆包译文 | 有道译文 | |||
|---|---|---|---|---|---|
| 高频词 | 出现频次 | 高频词 | 出现频次 | 高频词 | 出现频次 |
| Mother | 23 | Mother | 21 | Official | 26 |
| Wife | 20 | Zhongqing | 19 | Mother | 21 |
| Husband | 15 | Silk | 12 | Bride | 11 |
| Day | 14 | Wife | 11 | Woman | 10 |
| Come | 10 | Family | 10 | House | 9 |
| Silk | 10 | Noble | 9 | King | 7 |
| Daughter | 9 | Daughter | 8 | Brother | 6 |
| Matchmaker | 9 | Heard | 8 | Concubine | 6 |
| Heard | 8 | Lanzhi | 7 | Marry | 6 |
| Heart | 8 | Matchmaker | 7 | Matchmaker | 6 |
通过使用建立语料库,查找高频词及关键词的方法,对许渊冲先生的译文进行了分析,得出以下结论。首先,通过观察可发现,高频词为mother,wife,husband,daughter,matchmaker,heart等,通过这些词能够观察到该文章是围绕着一个家庭,一对夫妻以及媒人说媒展开。文中多次出现mother这个单词,结合后面出现matchmaker这个单词,可以较为容易的观察到这是一个相对悲伤的故事。从表中可以看出,仅有母亲,丈夫,妻子等名词出现频率较高,而许渊冲先生的译文共有2869个字符,因此可以看出,其译文的选词并非千篇一律,具有一定的丰富度。
通过对于豆包平台译文的去虚词化处理后,读者能够很清晰地观察到豆包平台的翻译并未出现较多妻子、丈夫等词,而是用两位主人公的真名zhongqing、lanzhi来代替,这种翻译方法可能会让读者难以理解二人之间的关系,从而不能快速带入到文章之中。此种翻译相对更为客观,减少了感性的代入,而family的频繁使用则可能会形成一种前后的矛盾,即前文较少谈及夫妻,后文增添了家庭感,容易引起误解。
通过对有道平台译文的高频词分析,观察其出现频率可以看出,相较于许渊冲先生和豆包平台的译文,有道平台将husband和zhongqing这俩个词用official这个词来代替,翻译风格过于直白,并未对原文的“吏”这个词做更深层次的解释,而是简单的将其翻译为official官员这个意思,直接掩盖了原文主角焦仲卿丈夫的身份,并且将“君”这个对爱人的称呼直译为king,将其改写为君王的意思,可能会影响读者对文章内容的理解和判断。同时,文章中也多次将“妾身”这个妻子的自称翻译为bride,woman,concubine等,也掩盖了原文女主角妻子的身份,容易让读者产生误解。
在句长层面,本文通过使用wordsmith软件对三篇译文同时进行了词长的分析,得出每篇译文的句子数与平均句长的相关数据。
| 许渊冲译文 | 豆包译文 | 有道译文 | |
|---|---|---|---|
| Sentences | 154 | 199 | 160 |
| Mean(in words) | 8.38 | 15.24 | 13.35 |
古诗词经常具有较多的特殊句式,本文就是一篇经典的五言诗,语言通俗生动,善用连绵词和叠音词,使用反复和排比的修辞手法,如“十三能织素,十四学裁衣,十五弹箜篌,十六诵诗书”运用排比自述身世;“不图子自归!十三教汝织……”则融排比与反复为一体,强调兰芝的教养。因此,面对特殊句式,人工翻译和AI翻译经常有不同的处理方法。例如此句:
还家十余日,县令遣媒来。云有第三郎,窈窕世无双。年始十八九,便言多令才。
许渊冲先生的译文为:
Ten days or so after she came back home,
A matchmaker came to her as the comb.
He said, “The magistrate has a third son,
So fair and handsome, he's second to none.
He's just eighteen or nineteen years old;
He's so bright and eloquent, as I'm told.”
豆包平台的译文为:
More than ten days after she returned home, the county magistrate sent a matchmaker to her home. The matchmaker said that there was a third son of his, who was extremely beautiful and unrivaled in the world. He was just eighteen or nineteen years old and was very eloquent and talented.
有道平台的译文为:
Returning home more than ten days, the county sent a medium. Cloud has a third lang, my fair world unmatched. At the beginning of the year eighteen and nineteen, he will speak a lot of talent.
通过对三种译文的数据分析可知,与AI翻译相比,人工翻译保留了原文句式,其句子数少于AI译文,平均句长也远小于两篇AI译文。同时,观察三种译文发现,许渊冲先生的译文语言简洁直白,保留原文风格,具有韵律节奏,能匹配原文结构,形式上匹配度高且朗朗上口。而两篇AI译文则缺乏简洁性,未考虑原文结构,显得臃肿。因此,多数情况下,面对特殊句式,人工翻译会灵活调整语序,运用符合目标语语法习惯的句式准确传达原文意思,体现异化与同化相结合的策略;AI翻译常按原文语序直译,难以处理特殊句式,多采用同化策略,致使译文不符合目标语语法。
五、结论
本研究构建《孔雀东南飞》多版本翻译语料库,从词汇、句法、语篇和文化意象等层面,系统分析AI翻译优劣并与人工翻译进行对比。
研究表明,AI翻译处理《孔雀东南飞》有一定优势,其常见实词和现代通用词汇翻译准确性、一致性较高,且翻译效率高,能快速提供多语言版本。然而,AI翻译劣势显著。词汇层面,准确性不足,难以准确理解和翻译古汉语特殊词汇、偏义复词及文化意象相关词汇,词汇丰富度欠佳,重复多,特有词汇及文化意象缺失;句法层面,特殊句式识别处理能力弱,语序不当,无法准确体现句式含义,句间逻辑关系呈现生硬机械;语篇层面,连贯性差,段落衔接不自然流畅,难以把握情感过渡与逻辑关联,译文风格现代直白,情感表达不够细腻深刻;文化意象翻译多直译,难以识别深层寓意,转换传递不足,译文读者难体会原文文化内涵与情感共鸣。
相比之下,人工翻译优势明显。词汇层面,能据语境选更贴切、富变化词汇,对文化意象词汇采用异化策略加注释保留文化特色;句法层面,灵活调语序,用符合目标语语法句式准确传达原文意思,妥善处理特殊句式并清晰呈现逻辑关系;语篇层面,注重连贯性,通过词汇选择与句式安排展现古朴风格与细腻情感,增强情感共鸣与文化内涵传达;文化意象翻译中,善用异化策略,借助注释、意译或替换等准确传达内涵与共鸣,助读者理解原文文化意义。
尽管当前AI翻译在古诗词翻译领域存在诸多不足,但随着技术的持续发展与进步,其仍有广阔的提升空间和发展前景。
在技术优化上,需着力提高AI翻译模型对古汉语特殊词汇、句式及文化意象的理解处理能力。比如,增加古汉语语料数据输入与训练,优化模型算法,让其更精准识别偏义复词、特殊句式结构等,降低词汇与句法翻译错误。借助深度学习技术,强化模型对上下文语义的理解把握,提升句间逻辑关系呈现效果,使译文更连贯、更具逻辑性。
在语料库完善方面,要进一步丰富古诗词专用语料库的内容与标注信息。除增添经典古诗词作品及其优质翻译版本外,还应着重对文化意象、历史典故等内涵信息进行详细标注解读。同时,结合与古诗词相关的图片、音频、视频等多模态语料数据,为AI翻译提供更全面的背景知识与文化语境信息,帮助其更好地理解和传达古诗词的文化内涵与艺术美感。
参考文献:
- [1] Kudiabor H . AI tool helps people with opposing views find common ground[J]. Nature,2024.
- [2] Wells S . Can AI shake-up translational research? [J]. Nature,2024.
- [3] Kudiabor H . How AI-powered science search engines can speed up your research[J]. Nature,2024.
- [4] Ryan J . Can AI be used to assess research quality? [J]. Nature,2024,633 (8030): S18-S20.
- [5] Gibney E . Has your paper been used to train an AI model? Almost certainly[J]. Nature,2024,632 (8026):715-716.
- [6] Adelani I D . Meta's AI translation model embraces overlooked languages[J]. Nature,2024,630 (8018):821-822.
- [7] Tenzer H ,Feuerriegel S ,Piekkari R . AI machine translation tools must be taught cultural differences too [J]. Nature,2024,630 (8018):820.
- [8] 闫潼.基于语料库的新加坡外交话语中的中国形象研究[J].北京第二外国语学院学报,2024,46(05):27-44.
- [9] 胡方, 徐英. 基于语料库的话语-历史分析——以拜登政府移民政策的话语建构研究为例[J]. 外语研究,2024,41 (06):55-60+97.
- [10] 张一宁, 孟骞, 王欣. 基于语料库的中外应用语言学期刊论文修辞渲染对比研究[J]. 外语电化教学,2024 (05):52-59+112.
- [11] 梁文琴. 跨文化语境下化工英语翻译教学探索[J]. 塑料工业,2024,52 (09):185.
- [12] 吴智慧.机器翻译工具对英语学习者语言写作水平影响的实证研究[J]. 外语导刊,2024,47 (05):103-111+160.
- [13] 吴文安. MTI翻译实践报告的理论与实践——以北外英语学院为例[J]. 中国翻译,2024,45 (05):66-72.
- [14] 黄晋波, 李孝英. 基于语料库的《伤寒论》三译本译者风格研究[J]. 医学与哲学,2024,45 (13):73-77+81.
- [15] 高玉霞.生成式AI时代机器翻译译后编辑中的政治意识培养[J]. 翻译界,2024(02):18-30.
- [16] 胡仲彬. 英语教育与翻译理论在新能源行业中的应用[J].太阳能学报,2024,45 (06):692.
- [17] 王晓莉, 胡开宝.语料库批评翻译学视域下译者行为研究:前沿与展望[J]. 外语与外语教学,2024(03):125-134+150.
- [18] 董强. 英语翻译的跨文化视域解读与思考——评《跨文化交际视角下英语翻译研究》[J]. 教育理论与实践,2024,44 (15):65.
- [19] 崔丹, 李舒淇. 基于AI算法的自然语言信息提取-翻译-校对系统设计[J].现代电子技术,2024,47 (10):111-116.
- [20] 李正栓, 吕欣.许渊冲英译毛泽东诗词译者行为研究[J]. 上海翻译,2024(02):55-60+95.
- [21] 张宇辉, 张雪萍. 中英文跨语言信息检索中平行语料库的构建及性能评价研究[J]. 情报科学,2024,42 (03):80-88.
- [22] 李婧萍. 中国特色话语外译研究[D]. 北京外国语大学,2023.
- [23] 陈冉冉. AI辅助诗词翻译研究[J]. 名家名作,2023(30):79-81.
- [24] 刘晓东, 李德凤, 贺文照.认知导向的翻译语料库研制与评析[J]. 外语学刊,2023(04):52-60.
- [25] 冯全功, 王娅婷. 从独立翻译到合作翻译——王红公英译李清照诗词的翻译修改研究[J]. 外语研究,2022,39 (06):82-88.
- [26] 赵政廷, 柴明颎. 技术时代面向语言服务市场的语料库笔译教学模式研究——基于“译学家”语料库翻译教学平台的教学案例分析[J]. 外语电化教学,2021(05):88-95+13.
- [27] 高萍, 周虹. 基于大数据时代自建语料库的翻译教学研究述评[J]. 英语广场,2021(27):78-81.
- [28] 李晓倩, 胡开宝. 《习近平谈治国理政》多语平行语料库的建设与应用[J]. 外语电化教学,2021(03):83-88+13.
