国际期刊投稿平台
登录 | 注册
当前位置: 首页 > 未来教育探索 > 人工与AI翻译在古典诗歌中的对比研究:基于语料库的考察
未来教育探索

未来教育探索

Exploration of Future Education

  • 主办单位: 
    未來中國國際出版集團有限公司
  • ISSN: 
    3079-3637(P)
  • ISSN: 
    3079-9511(O)
  • 期刊分类: 
    教育科学
  • 出版周期: 
    月刊
  • 投稿量: 
    3
  • 浏览量: 
    323

相关文章

暂无数据

人工与AI翻译在古典诗歌中的对比研究:基于语料库的考察

A Corpus-Based Study of Human vs. AI Translation in Classical Poetry

发布时间:2025-12-18
作者: 张寅,杨金维 :西北政法大学 陕西西安;
摘要: 人工智能以“效率”和“普及”为核心,从根本上重塑了翻译的生态与边界。本文建立古诗词《孔雀东南飞》译文的语料库,探究译文中的重点词句并精确分析词密度,对比两个AI译文与许渊冲先生的译文在句长方面的优劣差异;最后,通过系统的归纳总结,深入剖析AI在翻译过程中所起到的重要作用、存在的局限性,以及语料库建设在分析字词句过程中的关键作用和重要价值。
Abstract: Artificial intelligence, with “efficiency” and “accessibility” at its core, is fundamentally reshaping the ecology and boundaries of translation. This paper establishes a corpus of translated versions of the classical Chinese poem A Peacock Southeast Flew to investigate key words and sentences in the translations and conduct precise lexical density analysis. It compares the advantages and disadvantages in sentence length between two AI-generated translations and the translation by Xu Yuanchong. Finally, through systematic summarization, the study provides an in-depth analysis of the significant role played by AI in the translation process, its existing limitations, as well as the crucial function and value of corpus construction in analyzing words, phrases, and sentences.
关键词: 中国古典诗词;语料库建设;AI翻译;
Keywords: classical Chinese poetry; corpus construction; AI translation;

引言

在人工智能(AI)技术蓬勃发展的当下,其于诗词翻译领域的运用愈发普遍。AI翻译诗词的核心目标在于突破语言界限,助力不同文化背景的读者体悟诗词这一文学奇珍的迷人魅力,为文化的交流互鉴与传承创新开辟崭新路径。

语料库在AI翻译诗词进程中占据着举足轻重的地位。它作为海量文本数据的汇聚之所,为AI翻译模型筑牢了根基,使其得以研习并领会诗词的语言架构、词汇运用方式以及文化内在意蕴等关键知识。借助对大规模语料库的深入剖析与学习,AI模型能够精准提炼出诗词翻译的规则与范式,进而显著提升翻译的精确性与畅达性。

不过,AI翻译诗词亦面临重重困境。诗词以其高度的凝练特质、丰富的意象呈现以及独特的文化品格著称,其语言表述常常超脱于字面意义,需紧密结合文化背景与历史知识予以深度解读。但就目前而言,既有的AI翻译模型在洞悉诗词深层意涵、营造意境氛围以及传递文化意象等维度上尚有欠缺,致使翻译成果可能滋生语义偏差、文化信息遗漏或风格失谐等弊病。

由此可见,深入探究AI辅助翻译诗词之道,摸索构建高品质语料库并使其在诗词翻译中得以有效施展的路径,兼具极为关键的理论价值与实践意义。这不仅有助于促进AI翻译技术在诗词范畴的持续演进,优化诗词翻译品质,更能够为中华诗词文化的传承与弘扬贡献卓越力量。

一、国内外研究现状

国外在AI翻译与语料库建设领域起步早,成果丰硕。OpenAI的GPT-4.0模型以3000亿单词和超40TB语料训练而成,在文本理解与生成上表现优异,能准确理解用户问题并生成自然流畅文本,其多语种互译的翻译能力优势明显,为诗词翻译提供了强大语言处理基础。谷歌通过涵盖书籍、新闻等广泛领域的海量文本训练BERT模型,显著提高了文本翻译、情感识别等任务的准确度,使其在诗词翻译中能更好地把握语义和情感表达。此外,谷歌的PaLM2模型采用包含多种语言和科学数据的改进语料库训练,翻译、推理及代码生成能力大幅提升,对诗词这类富有文化内涵和逻辑推理的文本翻译具有一定借鉴意义。欧洲语言资源协调机构则通过制定数据采集、标注和共享标准,整合欧洲各国及全球语料资源,推动语料库规范化发展,为AI翻译模型提供了丰富且高质量的语料数据,有助于提升诗词翻译的准确性与专业性。

国内在AI翻译与语料库建设方面也积极进取,成效显著。上海外国语大学成立语料库研究院,其团队汇聚了语料库翻译学、语料库语言学、计算语言学、计算机科学、语言智能等多领域专家,致力于建设“一带一路”多语平行语料库、国别与区域研究多语语料库等基础设施,大力推进基于语料库的跨学科研究和语言智能研究,推动产学研合作,培养高端人才,为诗词翻译研究提供了有力的平台支持与人才保障。中国大模型语料数据联盟发布的“书生・万卷”多模态语料库,涵盖网页、书籍、百科等不同来源的清洗后预训练语料,数据规模超2TB;智源研究院联合多家数据单位建设的全球最大中文语料数据库WuDaoCorpora,包含1.2TB中文文本数据、2.5TB中文图文数据,这些大规模语料库为中文诗词的AI翻译提供了丰富数据资源,有助于提升模型对中文诗词语言特点和文化内涵的理解与表达。

然而,当前国内外将AI翻译与语料库建设相结合应用于诗词翻译的研究较少。诗词翻译有其独特难点,其语言凝练、意象丰富、文化内涵深厚,现有的语料库在诗词领域针对性不足,难以满足诗词翻译对文化意象、意境传达等特殊需求。因此,本研究致力于深入探讨如何构建专门针对诗词翻译的语料库,并将其有效应用于AI翻译模型中,以提高诗词翻译质量,弥补现有研究不足,为诗词翻译研究开拓新路径,促进中华诗词文化在全球的传播与交流。

二、研究方法

本研究运用语料库研究法,采集《孔雀东南飞》的原文、AI翻译文本与诸多经典人工翻译文本,构建平行语料库。借助语料库检索工具,对词汇、短语、句式展开定量剖析,像统计词汇频次、词类分布与句子长度等信息,以此比对AI翻译和人工翻译于语言形式方面的差别。采用案例分析法,择取诗里具代表性的段落、诗句,诸如涵盖文化意象(如“鸳鸯”“梧桐”)、修辞手法(如排比、互文)之处,深度探究AI翻译与人工翻译在语义传递、文化内涵重现、艺术效果展现等层面的优劣。

本研究的创新之处在于构建了专属《孔雀东南飞》的多版本翻译语料库,为系统研究给予充足数据依托;从语言形式、语义、文化内涵、艺术美感等多维度综合评定AI翻译,较为全面深入;对比AI翻译与人工翻译,明晰二者优势互补的关系,给翻译实践与研究带来全新视角与思路,还能为优化AI翻译模型提供确切建议,助力古诗词翻译领域的发展。

三、《孔雀东南飞》的AI翻译语料库构建

(一)语料收集

本研究以《孔雀东南飞》的原文及其AI翻译版本作为主要研究对象,同时选取部分经典人工翻译版本作为对比参照,构建多版本平行语料库,确保研究的全面性与科学性。对于原文语料,选取《乐府诗集》等古代文学经典著作中的权威版本,保证原文准确完整。AI翻译版本通过多种途径,借助豆包翻译、有道翻译等知名在线平台获取。收集人工翻译版本时,选用国内知名度与影响力较高的许渊冲先生译本,其在古诗词翻译领域造诣深厚、经验丰富,译本在忠实反映原文内涵与艺术美感方面特色显著。本研究共收集了一篇许渊冲先生的译文和两篇AI平台的译文,分别是豆包和有道翻译平台,三篇译文共计7452个字符。

(二)语料预处理

在收集到原始语料后,需要对其进行预处理,以确保语料的质量和可用性。首先是清洗语料,去除文本中的噪声信息,如多余的标点符号、换行符、空白字符等。对于《孔雀东南飞》原文中的一些特殊符号或古汉语中的生僻字,进行统一的规范化处理,以便后续的分析。例如,将一些异体字转换为正体字,确保语料在文字层面的一致性。

接着进行语料对齐操作,将《孔雀东南飞》的原文与不同版本的AI翻译文本、人工翻译文本按照句子或段落进行一一对应,构建平行语料库。在对齐过程中,充分考虑到古诗词的语言特点,如诗句的分行、韵脚等因素,确保对齐的准确性。

四、《孔雀东南飞》AI翻译的优劣分析

表1词汇层面的分析
原文 许渊冲译文 豆包翻译 有道翻译
十五弹箜篌 Play the lute with ease played the konghou plucked plucked instrument
十七为君妇 to be man's wife I became your wife 17 for the king's wife
守节情不移 a loyal subject of the land you remained steadfast in your duty the festival does not move
相见常日稀 met but seldom from dusk to dawn we seldom saw each other I rarely saw her
鸡鸣入机织,夜夜不得息。 She'd weave at dawn when cocks began to crow;
She'd toil all night and had no time to rest.
I entered the loom room at cockcrow and had no rest every night The chicken crowing into the machine weaving, not to rest every night

在词汇准确性方面,AI翻译存在着一定的局限性。如,诗中“十五弹箜篌”一句,箜篌是一种据传从波斯传入中国的弹拨型乐器,在古代,能否演奏箜篌是衡量女子是否有才学的标志之一。在许渊冲先生的译文中,他将其翻译为“lute”,该词在西方指的是一种类似的弦乐器,如鲁特琴,它们在形态和演奏方式上有相似之处。而对比AI的翻译,网易翻译将其翻译为“plucked instrument”,意为弹拨型乐器,从演奏方式上表现出该词的含义。而豆包翻译则直接将该词翻译为“konghou”,用该词的汉语拼音代替,即不能表现出该乐器的弹奏方式,也不能展示出这个词的真实含义,相对来说容易让读者产生误解。通过上文表格可看出,有道翻译平台的译文相对来说较为直白,没有对古文进行先解释后翻译。在同一个句子中,如“守节情不移”一句,意为坚守臣节专心不移,指焦仲卿在当官之后,坚定做政府官员该做的事情。许渊冲先生和豆包平台的译文都指出为官的职责,而有道平台则是直白的将“节”直译为festival,即节日。再如“相见常日稀”,意为每次相见的时候太阳已经下山了,日薄西山的时候二人才能见面。三种翻译各自用“seldom,rarely”这两个表示很少、几乎不的词语来体现他们相见之难,这也体现出AI翻译也能够做到相对精确。而仅有许渊冲先生的译文体现出了“日稀”,而豆包和有道则并未做到精确。由此可看出,人工翻译会考虑到各个词的深层内涵,用更加具象化的方式传达深层次的情感和寓意。

表2词汇丰富度层面的分析
许渊冲译文 豆包译文 有道译文
高频词 出现频次 高频词 出现频次 高频词 出现频次
Mother 23 Mother 21 Official 26
Wife 20 Zhongqing 19 Mother 21
Husband 15 Silk 12 Bride 11
Day 14 Wife 11 Woman 10
Come 10 Family 10 House 9
Silk 10 Noble 9 King 7
Daughter 9 Daughter 8 Brother 6
Matchmaker 9 Heard 8 Concubine 6
Heard 8 Lanzhi 7 Marry 6
Heart 8 Matchmaker 7 Matchmaker 6

通过使用建立语料库,查找高频词及关键词的方法,对许渊冲先生的译文进行了分析,得出以下结论。首先,通过观察可发现,高频词为mother,wife,husband,daughter,matchmaker,heart等,通过这些词能够观察到该文章是围绕着一个家庭,一对夫妻以及媒人说媒展开。文中多次出现mother这个单词,结合后面出现matchmaker这个单词,可以较为容易的观察到这是一个相对悲伤的故事。从表中可以看出,仅有母亲,丈夫,妻子等名词出现频率较高,而许渊冲先生的译文共有2869个字符,因此可以看出,其译文的选词并非千篇一律,具有一定的丰富度。

通过对于豆包平台译文的去虚词化处理后,读者能够很清晰地观察到豆包平台的翻译并未出现较多妻子、丈夫等词,而是用两位主人公的真名zhongqing、lanzhi来代替,这种翻译方法可能会让读者难以理解二人之间的关系,从而不能快速带入到文章之中。此种翻译相对更为客观,减少了感性的代入,而family的频繁使用则可能会形成一种前后的矛盾,即前文较少谈及夫妻,后文增添了家庭感,容易引起误解。

通过对有道平台译文的高频词分析,观察其出现频率可以看出,相较于许渊冲先生和豆包平台的译文,有道平台将husband和zhongqing这俩个词用official这个词来代替,翻译风格过于直白,并未对原文的“吏”这个词做更深层次的解释,而是简单的将其翻译为official官员这个意思,直接掩盖了原文主角焦仲卿丈夫的身份,并且将“君”这个对爱人的称呼直译为king,将其改写为君王的意思,可能会影响读者对文章内容的理解和判断。同时,文章中也多次将“妾身”这个妻子的自称翻译为bride,woman,concubine等,也掩盖了原文女主角妻子的身份,容易让读者产生误解。

在句长层面,本文通过使用wordsmith软件对三篇译文同时进行了词长的分析,得出每篇译文的句子数与平均句长的相关数据。

表3句长统计
许渊冲译文 豆包译文 有道译文
Sentences 154 199 160
Mean(in words) 8.38 15.24 13.35

古诗词经常具有较多的特殊句式,本文就是一篇经典的五言诗,语言通俗生动,善用连绵词和叠音词,使用反复和排比的修辞手法,如“十三能织素,十四学裁衣,十五弹箜篌,十六诵诗书”运用排比自述身世;“不图子自归!十三教汝织……”则融排比与反复为一体,强调兰芝的教养。因此,面对特殊句式,人工翻译和AI翻译经常有不同的处理方法。例如此句:

还家十余日,县令遣媒来。云有第三郎,窈窕世无双。年始十八九,便言多令才。

许渊冲先生的译文为:

Ten days or so after she came back home,

A matchmaker came to her as the comb.

He said, “The magistrate has a third son,

So fair and handsome, he's second to none.

He's just eighteen or nineteen years old;

He's so bright and eloquent, as I'm told.”

豆包平台的译文为:

More than ten days after she returned home, the county magistrate sent a matchmaker to her home. The matchmaker said that there was a third son of his, who was extremely beautiful and unrivaled in the world. He was just eighteen or nineteen years old and was very eloquent and talented.

有道平台的译文为:

Returning home more than ten days, the county sent a medium. Cloud has a third lang, my fair world unmatched. At the beginning of the year eighteen and nineteen, he will speak a lot of talent.

通过对三种译文的数据分析可知,与AI翻译相比,人工翻译保留了原文句式,其句子数少于AI译文,平均句长也远小于两篇AI译文。同时,观察三种译文发现,许渊冲先生的译文语言简洁直白,保留原文风格,具有韵律节奏,能匹配原文结构,形式上匹配度高且朗朗上口。而两篇AI译文则缺乏简洁性,未考虑原文结构,显得臃肿。因此,多数情况下,面对特殊句式,人工翻译会灵活调整语序,运用符合目标语语法习惯的句式准确传达原文意思,体现异化与同化相结合的策略;AI翻译常按原文语序直译,难以处理特殊句式,多采用同化策略,致使译文不符合目标语语法。

五、结论

本研究构建《孔雀东南飞》多版本翻译语料库,从词汇、句法、语篇和文化意象等层面,系统分析AI翻译优劣并与人工翻译进行对比。

研究表明,AI翻译处理《孔雀东南飞》有一定优势,其常见实词和现代通用词汇翻译准确性、一致性较高,且翻译效率高,能快速提供多语言版本。然而,AI翻译劣势显著。词汇层面,准确性不足,难以准确理解和翻译古汉语特殊词汇、偏义复词及文化意象相关词汇,词汇丰富度欠佳,重复多,特有词汇及文化意象缺失;句法层面,特殊句式识别处理能力弱,语序不当,无法准确体现句式含义,句间逻辑关系呈现生硬机械;语篇层面,连贯性差,段落衔接不自然流畅,难以把握情感过渡与逻辑关联,译文风格现代直白,情感表达不够细腻深刻;文化意象翻译多直译,难以识别深层寓意,转换传递不足,译文读者难体会原文文化内涵与情感共鸣。

相比之下,人工翻译优势明显。词汇层面,能据语境选更贴切、富变化词汇,对文化意象词汇采用异化策略加注释保留文化特色;句法层面,灵活调语序,用符合目标语语法句式准确传达原文意思,妥善处理特殊句式并清晰呈现逻辑关系;语篇层面,注重连贯性,通过词汇选择与句式安排展现古朴风格与细腻情感,增强情感共鸣与文化内涵传达;文化意象翻译中,善用异化策略,借助注释、意译或替换等准确传达内涵与共鸣,助读者理解原文文化意义。

尽管当前AI翻译在古诗词翻译领域存在诸多不足,但随着技术的持续发展与进步,其仍有广阔的提升空间和发展前景。

在技术优化上,需着力提高AI翻译模型对古汉语特殊词汇、句式及文化意象的理解处理能力。比如,增加古汉语语料数据输入与训练,优化模型算法,让其更精准识别偏义复词、特殊句式结构等,降低词汇与句法翻译错误。借助深度学习技术,强化模型对上下文语义的理解把握,提升句间逻辑关系呈现效果,使译文更连贯、更具逻辑性。

在语料库完善方面,要进一步丰富古诗词专用语料库的内容与标注信息。除增添经典古诗词作品及其优质翻译版本外,还应着重对文化意象、历史典故等内涵信息进行详细标注解读。同时,结合与古诗词相关的图片、音频、视频等多模态语料数据,为AI翻译提供更全面的背景知识与文化语境信息,帮助其更好地理解和传达古诗词的文化内涵与艺术美感。

参考文献:

  1. [1] Kudiabor H . AI tool helps people with opposing views find common ground[J]. Nature,2024.
  2. [2] Wells S . Can AI shake-up translational research? [J]. Nature,2024.
  3. [3] Kudiabor H . How AI-powered science search engines can speed up your research[J]. Nature,2024.
  4. [4] Ryan J . Can AI be used to assess research quality? [J]. Nature,2024,633 (8030): S18-S20.
  5. [5] Gibney E . Has your paper been used to train an AI model? Almost certainly[J]. Nature,2024,632 (8026):715-716.
  6. [6] Adelani I D . Meta's AI translation model embraces overlooked languages[J]. Nature,2024,630 (8018):821-822.
  7. [7] Tenzer H ,Feuerriegel S ,Piekkari R . AI machine translation tools must be taught cultural differences too [J]. Nature,2024,630 (8018):820.
  8. [8] 闫潼.基于语料库的新加坡外交话语中的中国形象研究[J].北京第二外国语学院学报,2024,46(05):27-44.
  9. [9] 胡方, 徐英. 基于语料库的话语-历史分析——以拜登政府移民政策的话语建构研究为例[J]. 外语研究,2024,41 (06):55-60+97.
  10. [10] 张一宁, 孟骞, 王欣. 基于语料库的中外应用语言学期刊论文修辞渲染对比研究[J]. 外语电化教学,2024 (05):52-59+112.
  11. [11] 梁文琴. 跨文化语境下化工英语翻译教学探索[J]. 塑料工业,2024,52 (09):185.
  12. [12] 吴智慧.机器翻译工具对英语学习者语言写作水平影响的实证研究[J]. 外语导刊,2024,47 (05):103-111+160.
  13. [13] 吴文安. MTI翻译实践报告的理论与实践——以北外英语学院为例[J]. 中国翻译,2024,45 (05):66-72.
  14. [14] 黄晋波, 李孝英. 基于语料库的《伤寒论》三译本译者风格研究[J]. 医学与哲学,2024,45 (13):73-77+81.
  15. [15] 高玉霞.生成式AI时代机器翻译译后编辑中的政治意识培养[J]. 翻译界,2024(02):18-30.
  16. [16] 胡仲彬. 英语教育与翻译理论在新能源行业中的应用[J].太阳能学报,2024,45 (06):692.
  17. [17] 王晓莉, 胡开宝.语料库批评翻译学视域下译者行为研究:前沿与展望[J]. 外语与外语教学,2024(03):125-134+150.
  18. [18] 董强. 英语翻译的跨文化视域解读与思考——评《跨文化交际视角下英语翻译研究》[J]. 教育理论与实践,2024,44 (15):65.
  19. [19] 崔丹, 李舒淇. 基于AI算法的自然语言信息提取-翻译-校对系统设计[J].现代电子技术,2024,47 (10):111-116.
  20. [20] 李正栓, 吕欣.许渊冲英译毛泽东诗词译者行为研究[J]. 上海翻译,2024(02):55-60+95.
  21. [21] 张宇辉, 张雪萍. 中英文跨语言信息检索中平行语料库的构建及性能评价研究[J]. 情报科学,2024,42 (03):80-88.
  22. [22] 李婧萍. 中国特色话语外译研究[D]. 北京外国语大学,2023.
  23. [23] 陈冉冉. AI辅助诗词翻译研究[J]. 名家名作,2023(30):79-81.
  24. [24] 刘晓东, 李德凤, 贺文照.认知导向的翻译语料库研制与评析[J]. 外语学刊,2023(04):52-60.
  25. [25] 冯全功, 王娅婷. 从独立翻译到合作翻译——王红公英译李清照诗词的翻译修改研究[J]. 外语研究,2022,39 (06):82-88.
  26. [26] 赵政廷, 柴明颎. 技术时代面向语言服务市场的语料库笔译教学模式研究——基于“译学家”语料库翻译教学平台的教学案例分析[J]. 外语电化教学,2021(05):88-95+13.
  27. [27] 高萍, 周虹. 基于大数据时代自建语料库的翻译教学研究述评[J]. 英语广场,2021(27):78-81.
  28. [28] 李晓倩, 胡开宝. 《习近平谈治国理政》多语平行语料库的建设与应用[J]. 外语电化教学,2021(03):83-88+13.
联系我们
人工客服,稿件咨询
投稿
扫码添加微信
客服
置顶