多维质量评估模型在法律翻译机器译后评价中的应用研究

薛岩

当前位置：首页 > 法学前沿 > 多维质量评估模型在法律翻译机器译后评价中的应用研究

法学前沿

Frontiers of Law

主办单位:
未來中國國際出版集團有限公司
ISSN:
3079-7101（P）
ISSN:
3080-0684（O）
期刊分类:
人文社科
出版周期:
月刊
投稿量:
2
浏览量:
901

多维质量评估模型在法律翻译机器译后评价中的应用研究

An Applied Study on the Use of the Multidimensional Quality Metrics (MQM) Framework in Post-Editing Evaluation of Machine Translation in Legal Translation

发布时间：2025-12-01

作者: 薛岩 :西北政法大学陕西西安;

摘要: 近年来，随着人工智能与自然语言处理技术的飞速发展，机器翻译（Machine Translation, MT）在跨语言沟通与专业文本翻译中发挥着日益重要的作用。尽管神经网络机器翻译（NMT）显著提升了译文流畅度和语义连贯性，但在法律等高专业性文本中，其翻译质量仍存在较大争议。法律语言具有精确、逻辑性强及高度约束的特征，对翻译准确性与术语一致性提出了严苛要求。本文以《民法典》相关条款为研究语料，采用多维质量评估模型（Multidimensional Quality Metrics, MQM）对机器翻译引擎DeepL的译文进行系统化评估。研究通过定性与定量相结合的分析，揭示了机器翻译在法律文本中的常见错误类型与成因，归纳了术语误用、句法偏差、语体失衡等典型问题，并探讨了MQM模型在专业翻译质量评估中的适用性。研究结果表明，MQM模型能够较为全面地反映法律文本机器翻译的多维质量特征，为翻译质量改进及人工智能翻译系统优化提供了新的视角与方法论支撑。

Abstract: With the rapid advancement of artificial intelligence, machine translation (MT) has been increasingly applied across various domains, drawing growing academic and industrial attention to translation quality. Although neural network machine translation (NMT) has significantly improved the fluency and semantic coherence of translation, the quality of translation in highly professional texts such as law is still controversial. Legal texts, characterized by specialized terminology, complex syntax, and strict logical precision, pose particular challenges for automated translation. Based on the Multidimensional Quality Metrics (MQM) framework, this study evaluates and analyzes the translation quality of legal texts produced by the DeepL translation engine, using selected articles from The Civil Code of the People’s Republic of China as the corpus. Errors are categorized and examined across multiple MQM dimensions—including terminology, accuracy, syntax, and style—along with a severity grading system. The findings indicate that while DeepL performs well in fluency and grammatical coherence, it still exhibits weaknesses in legal terminology precision, logical consistency, and genre control. This study further validates the applicability of the MQM framework for specialized translation assessment and proposes an “evaluation–feedback–optimization” cycle for quality improvement. The research provides both theoretical and practical insights into quality management, post-editing strategies, and domain-specific machine translation training.

关键词: 法律翻译；机器翻译；多维质量评估模型；DeepL；译文质量

Keywords: legal translation; machine translation; Multidimensional Quality Metrics (MQM); DeepL; translation quality improvement

引言

全球化语境下，语言服务需求急剧增长，机器翻译技术成为推动国际交流的重要工具。自神经网络机器翻译问世以来，机器翻译系统在新闻、科技、商业等领域取得显著成效。然而，在高风险和高专业性的领域，如法律、医学、外交等，译文的准确性、权威性与可解释性仍然面临严峻挑战。法律语言的复杂性不仅源于其逻辑结构的严密与语法的复杂，更体现在词汇的专业化与文化语境的独特性。法律条文的翻译需兼顾语义忠实与法律效力的等值，任何细微偏差都可能导致法律意义的歧义或执行偏差。虽然DeepL等机器翻译引擎在通用文本中表现优异，但其在处理具有规范性与逻辑约束性的法律语篇时是否具备足够的可靠性，仍有待进一步验证。

因此，如何科学、系统地评估机器翻译在法律文本中的译文质量，成为当下翻译研究与人工智能语言学领域的重要议题。传统的流畅性—准确性评估方法难以捕捉专业文本中的细微错误，而多维质量评估模型（MQM）通过细致的错误分层与多维分类，为翻译质量提供了可量化、可追踪的标准化框架。本研究在理论与实践层面均具有重要意义。理论上，它将MQM模型引入法律文本机器翻译质量评估领域，验证其在高专业性文本场景中的适用性，拓展了MQM的跨领域应用。实践上，研究结果不仅可为翻译人员与译后编辑提供针对性指导，也为机器翻译系统的开发与优化提供参考依据，促进人工智能技术与法律语言服务的融合发展。

一、理论基础

（一）法律文本的语言特征

法律语言是一种高度规范化的专业语体，其最显著特征包括词汇的专属性、句法的复杂性以及语篇的严谨性（谢天言，2019）。首先，法律词汇具有唯一性与不容歧义的特征，如damages，plaintiff，consideration等术语在特定语境中具有固定法律含义。其次，法律条文普遍采用长句、嵌套句与非人称表达，强调逻辑严密与条理清晰。再者，法律文本往往避免修辞性表达，注重客观与精确的陈述。这些特征使得法律文本在机器翻译过程中极易出现歧义传播、句法错位与语体不符等问题。

（二）MQM模型概述

多维质量评估模型（MQM）由德国人工智能研究中心（DFKI）提出，是欧盟QT21项目支持下形成的标准化质量评估体系（Lommel et al.,2014;2021）。该模型通过建立层次化的错误分类体系，将译文质量划分为七大维度：术语（Terminology）、准确性（Accuracy）、语言规范（Linguistic Conventions）、风格（Style）、地域适应性（Locale Conventions）、受众适应性（Audience Appropriateness）以及格式与标记（Design and Markup）。每一维度下又设有细化的错误类别，能够实现从词汇层面到篇章层面的多维度评估。

MQM模型的优势在于其可定制性与可扩展性。研究者可以根据语料类型（如法律、技术或文学文本）调整权重与指标，从而实现针对性评估。这一模型的系统化特征为机器翻译质量监控提供了科学依据，也为译后编辑提供了可操作的改进路径。

二、基于MQM的机器翻译质量分析

（一）研究设计与语料说明

本文选取《中华人民共和国民法典》第三编“合同”部分中具有代表性的二十条条文，涵盖合同履行、价款确定、违约责任等高频法律概念。使用DeepL翻译引擎生成英文译文，并以中国法律翻译研究中心发布的权威译本为参照。采用人工比对方式，基于MQM模型的七大维度对译文进行错误标注与分类，重点考察术语准确性、句法合规性、语体一致性及逻辑连贯性。

（二）主要错误类型与特征分析

1. 术语错误（Terminology）

术语错误是本次分析中最频繁出现的错误类型，占总错误数的31%。这类错误主要包括：

概念误译：如将“履行”译为fulfil而非perform。在一般英语语境中两者可以互换，但在合同相关的法律体系下，perform an obligation具有更强的法律约束力，使用错误可能导致义务性质被弱化。

搭配偏差：例如“违约责任”被译为default responsibility 而非liability for breach of contract，前者语义模糊，后者才是通行的专业表达。

术语不一致：同一概念在不同条文中译法不统一，如“价款”在部分译文中为price，在其他条文中为consideration，显示出DeepL 在跨句一致性处理上的局限。

造成术语错误的根本原因在于机器翻译模型缺乏领域术语约束机制。虽然DeepL使用了大规模平行语料，但其训练数据主要偏向通用文本，导致在法律领域无法有效识别专有语义模式。这种偏差会直接影响法律文件的可执行性与跨法域适用性。

2. 准确性错误（Accuracy）

准确性错误主要涉及意义偏差与逻辑错位，约占总错误的27%。例如：

将“依法应当执行政府定价或者政府指导价的”译为“should be implemented in accordance with the law”。其中should的使用削弱了法律义务的强制性，应译为shall be implemented。在合同条款中，shall通常用于确立义务，should则表示建议或期望，情态选择直接决定法律责任的性质。

在涉及条件关系时，DeepL常将复合句误解为并列结构，如将“在合同订立地市场价格履行”误译为“fulfilled in the place where the contract was signed”，忽略了时间状语“在订立合同时”的限定，造成逻辑错序。

此类错误反映了机器翻译在语义层次映射中的不足。NMT模型依赖上下文概率而非语义推理，当遇到逻辑嵌套较深的从句时，极易误判主谓逻辑关系。

3. 风格与语体错误（Style）

风格类错误约占22%，主要表现为语域不符与体裁偏离。法律英语要求高度的正式性与程式化表达，但DeepL生成的译文往往偏向自然口语化。例如：

使用if引导条件句代替where，导致条文从“陈述事实条件”变为“假设条件”。

将“当事人应当”译为The parties should而非The parties shall，降低了法律文体的规范力。

在部分条文中加入了非必要的连词或逻辑衔接，如“and also”，使句式冗长不符合法律条款的简洁性原则。

风格错误不仅影响译文的权威感，也可能在国际仲裁场景中引发条款歧义。通过 MQM 模型识别的“体裁不符”错误，可帮助译后编辑人员有针对性地进行修订。

4. 句法与结构偏差（Linguistic Conventions）

句法错误占15%，主要集中在长句分割与从句关系错配。例如：

DeepL在处理包含多个修饰成分的条款时，倾向于将其拆分为两句或多句，导致逻辑衔接断裂。

某些非限定性定语从句被错误转化为独立句，使得先行词与从句脱节。

被动语态转换错误：DeepL偶尔将主动句误译为被动句，或反之，从而改变法律责任的承担方向。

这说明机器翻译在解析复杂嵌套句时仍存在结构识别困难。未来若结合句法树约束或基于Transformer的层级解析机制，或可在一定程度上缓解此问题。

5. 格式与一致性问题（Design and Markup）

虽然这类错误仅占5%，但在法律文本中仍需重视。DeepL在翻译过程中常忽略条号、序号及排版逻辑，影响条文引用的精确性。例如遗漏分条标识或错误添加句号，导致译文与原文条次不匹配。这种格式性错误虽不直接影响语义，但在法律出版与国际传播中可能引发程序性误解。

（三）错误分布与趋势

统计结果显示，共识别出132处错误，其中严重错误（Critical）24处，中等错误（Major）68处，轻微错误（Minor）40处。术语与语体类错误在严重错误中占比最高，说明它们最直接影响译文的法律效力与专业性。从趋势上看：

DeepL在高频结构（如“应当”“按照……履行”）中表现稳定，但在复合逻辑句与条件句中错误率显著上升。

翻译一致性随着篇幅增加而下降，表现为同一术语在不同上下文中译法漂移。

与MQM框架对应的“受众适应性”与“地域惯例”维度错误较少，说明DeepL对英语语域的整体适配较强，但缺乏针对性领域训练。

这些发现验证了MQM模型在揭示机器翻译深层次错误机制方面的有效性，也为后续译后编辑和系统改进提供了定量依据。

三、讨论

（一）DeepL翻译表现的多维特征

整体而言，DeepL的译文在语言自然度和句法流畅性上已接近人工翻译水平，但在专业准确性和语体规范性上仍存在明显缺陷。其优点主要包括：语义连贯性较强，译文整体通顺；对普通词汇与基础句型的翻译准确率较高；能自动识别部分固定搭配，如enter into a contract，terminate the agreement。

然而，DeepL在以下方面仍需改进：语义精确度不足：无法处理法律条款的逻辑推理与语义约束；体裁控制能力弱：生成文本缺乏法律英语的程式化特征；上下文一致性差：跨句信息衔接不足，造成术语漂移。

（二）错误的深层成因分析

机器翻译的核心问题在于语料与模型训练的“领域错配”。DeepL的语料主要来源于新闻、科技与文学文本，而法律语料具有高封闭性与低可获得性，导致模型在法律词汇语义网中覆盖度不足。其次，NMT模型的注意力机制侧重于局部上下文匹配，缺乏法律逻辑链的全局建模能力。此外，现有翻译系统未引入法律义务范畴的语义标注，使得情态动词、逻辑连接词等功能词翻译常出现偏差。

（三）法律风险与译后编辑的必要性

在法律领域，微小的翻译误差可能造成严重后果。例如，错误的情态动词或连接词会导致合同履行条件被错误解释，从而影响诉讼结果或合同效力。因而，机器翻译产出必须经过专业译后编辑（Post-Editing, PE），以确保法律等值性与语义稳定性。根据本研究的MQM标注结果，术语类和准确性类错误应被列为“高优先级修订项”，风格类和格式类错误可通过模板化校对工具自动处理。

（四）改进路径与应用前景

建立法律领域知识图谱与专属语料库：通过标注法律术语关系与逻辑结构，帮助模型理解条文逻辑。

引入体裁标签训练：在模型输入阶段加入“法律文本”标签，引导模型生成符合文体特征的译文。

结合MQM的自动化反馈机制：开发MQM+NLP混合评估工具，实现错误自动识别与权重反馈，形成“译后编辑—模型优化”的闭环。

推动人机协同翻译机制：在机器翻译生成初稿的基础上，由具备法律背景的译者进行审校，实现效率与准确性的平衡。

（五）跨领域启示

与科技、新闻等领域相比，法律翻译的最大特点在于“低容错率”。本研究结果表明，若不引入MQM等多维评估体系，仅凭BLEU或ROUGE等传统指标难以全面反映质量差异。未来的评估趋势应从“语言可理解度”转向“语义责任度”，即考察译文在法律适用中的可执行性与可解释性。

四、结论

本研究基于多维质量评估模型（MQM），对机器翻译引擎DeepL在法律文本翻译中的表现进行了系统化、分层次的质量评估。通过定量与定性结合的分析，本文揭示了机器翻译在处理高专业性文本时的多重不足，也验证了MQM模型在翻译质量测评中的科学性与适用性。

研究结果表明，虽然以DeepL为代表的神经网络机器翻译在语言流畅度、语法正确性及语义连贯性方面已取得显著进步，但在专业领域，尤其是法律文本中，仍然存在术语准确性不足、句法逻辑错位、语体控制能力弱、跨句一致性低等核心问题。术语错误和风格偏离是最主要的质量缺陷，不仅影响译文的专业性，也可能在法律实践中带来语义歧义和责任风险。

此外，本研究的实践价值在于提出了一种可行的“机器翻译质量评估—译后修订—模型优化”循环机制：通过MQM框架实现精细化错误识别，明确不同类型错误的来源与影响；在译后编辑阶段建立反馈通道，将高频错误输入至机器翻译系统的语料训练模块；通过语义层监督学习提升模型对特定语域的适应度。

然而，本文也存在一定局限性。首先，研究语料主要选取自《民法典》的部分条文，样本范围有限，未能覆盖全部法律语类，如司法判决书、行政法规等，因而结论的普适性仍需进一步验证。其次，本文采用人工标注的方式进行错误分类，虽然能保证细致性，但难以避免主观偏差。未来研究可借助自动化评估算法（如MQM-Scorer或TERp-A）实现大规模、客观化的质量测评。

在后续研究方向上，可以从以下几方面拓展：

其一，跨语种比较研究——将MQM模型应用于中英以外的语言对（如中法、中德法律文本），验证模型的跨语言适应性；

其二，多模型对比分析——引入GoogleTranslate、ChatGPT翻译、TencentTranSmart等系统，构建多引擎对比框架，探讨不同架构下的错误分布特征；

其三，人机协同翻译研究——探讨译者在机器初译基础上进行法律文本润色与再创作的质量提升路径；

其四，评估体系本地化——在MQM的基础上建立“中文法律翻译质量标准”（如MQM-LegalCN），结合中国法律语言特点形成更具适应性的质量标准。

综上所述，机器翻译在法律文本领域的应用虽已具备现实意义，但其可靠性尚不足以完全替代人工翻译。未来的最佳路径应是以MQM为评估核心、以人工智能为辅助、以译者专业判断为保障的“人机共译”模式。随着法律知识图谱、语料标注技术和生成式语言模型的持续发展，机器翻译系统有望逐步实现对法律语义的结构化理解和规范化输出，为全球法律沟通和多语言司法体系提供新的技术支撑。

参考文献：

[1] 谢天言. 从法律英语的语言特点看法律英语的翻译——功能对等理论在法律英语翻译中的应用[J]. 海外英语, 2019(10):13-16.
[2] Lommel Arle, Uszkoreit Hans, Burchardt Aljoscha. Multidimensional Quality Metrics (MQM): A Framework for Declaring and Describing Translation Quality Metrics[J]. Revista Tradumàtica, 2014(12):455-462.
[3] 张法连. 法律英语翻译教程[M]. 北京: 北京大学出版社, 2016.

法学前沿

Frontiers of Law

相关文章

多维质量评估模型在法律翻译机器译后评价中的应用研究

An Applied Study on the Use of the Multidimensional Quality Metrics (MQM) Framework in Post-Editing Evaluation of Machine Translation in Legal Translation

引言

一、理论基础

（一）法律文本的语言特征

（二）MQM模型概述

二、基于MQM的机器翻译质量分析

（一）研究设计与语料说明

（二）主要错误类型与特征分析

1. 术语错误（Terminology）

2. 准确性错误（Accuracy）

3. 风格与语体错误（Style）

4. 句法与结构偏差（Linguistic Conventions）

5. 格式与一致性问题（Design and Markup）

（三）错误分布与趋势

三、讨论

（一）DeepL翻译表现的多维特征

（二）错误的深层成因分析

（三）法律风险与译后编辑的必要性

（四）改进路径与应用前景

（五）跨领域启示

四、结论

参考文献：