- 主办单位:
- ISSN:
- 期刊分类:
- 出版周期:
- 投稿量:
- 浏览量:
相关文章
暂无数据
人工智能的语言语用能力研究——以通义千问大语言模型为例
A Study on the Linguistic Pragmatic Competence of Artificial Intelligence—Taking the Qwen Large Language Model as an Example
引言
随着以ChatGPT为代表的大语言模型在自然语言生成与理解任务中展现出接近甚至超越人类的表现(袁毓林,2023),人工智能在语法与语义层面的能力已得到广泛验证。然而,越来越多的研究指出,AI在语用层面——尤其是言外之意的理解、语境推理与社会关系的把握仍存在明显不足(Chen,2024;袁毓林,2023)。这一局限催生了“人工智能生成文本的语用学研究”这一新兴领域,旨在系统评估大语言模型在真实交际场景中的适用性,并探索其生成文本能否作为语言学研究的补充语料。既有研究多聚焦于英语语境下ChatGPT等模型的语用表现,而针对非英语语言——尤其是日语的系统评估仍较为匮乏。日语作为一种高度依赖语境、敬语体系发达的语言,其语用机制具有独特性和复杂性,因而对AI的语用能力提出了更高要求。本研究在此背景下,选择通义千问第三代大语言模型(Qwen3)作为研究对象,以日语为语言载体,通过将其生成对话与大规模自然会话语料库(BTSJ1000)进行对比,系统评估其在语言选择与策略使用两个维度的语用能力。
一、研究背景
在清华大学(2023)推出的《大语言模型综合性能评估报告》中,研究者从人工智能的语义理解方面的上下文理解、逻辑推理、陷阱信息识别,以及输出表达的相关性、多样性、创造性等多维度对Qwen、GPT、文心一言、豆包、Claude等国内外主流的人工智能大语言模型进行了prompt测试。在评估测试中,Qwen大语言模型展现出卓越的多轮对话能力,交互过程流畅自然。其生成的回应不仅与上下文语义高度关联,逻辑清晰,且文本质量优异,可读性极强。无论是应对复杂的知识问答、逻辑推理,还是需要创意发散的内容创作,Qwen大语言模型均能提供信息准确、形式多样且富有创新性的高质量输出,展现了强大的通用性与实用性,且相对于其他大语言模型,具有稳定性和时效性强的特性。在研究前期的过程中也发现,相比于ChatGPT、豆包、deepseek等大语言模型,Qwen大语言模型的回答在语言语用能力的多方面与人类对话更加相近。其中Qwen3大语言模型是第三代Qwen系列中的旗舰语言模型。它采用了动态思维预算机制,能够实现自适应的性能扩展和成本效率。在思考模式下,它在复杂推理、指令跟随、数学、编码、角色扮演、创意写作等方面表现出色。而在非思考模式下,它能以最小的延迟和令牌成本高效处理常见任务。是现阶段非常先进的大语言模型。因此本研究决定选用Qwen3模型作为研究对象。
二、先行研究
如上所述,人工智能在各个领域都发挥了显著的作用。大量研究将人工智能生成的内容与人类参与者生成的内容进行了比较,包括学生论文、学术论文摘要和医学文献等。一些心理语言学研究也检验了人工智能做出的语言选择在多大程度上与人类相似(Cai et al.,2023;邱等人,2023)。然而,除了邱等人(2023)发现ChatGPT在处理语用推理方面可能存在缺陷外,人工智能的语用能力尚未得到完善的检验。
国内外学者通常将语言学中的语法,语义和语用三个方面作为三个研究的维度。加拿大语言能力基准(Canadian Language Benchmarks, CLB)由加拿大全国外语能力标准工作委员会主导制定,作为针对加拿大成年移民及在加生活、工作、学习的英语使用者(含学习者)的英语水平国家标准,其通过12个等级对听、说、读、写四项语言技能展开分级描述。CLB的理论基础主要依托巴克曼(Bachman)与帕尔默(Palmer)(2010)提出的交际语言能力模型,该模型将语言能力(language ability)定义为“在交际场景中有效运用语言的能力”,并明确其由语言知识(language knowledge)与策略能力(strategic competence)两大核心维度构成。其中,语言知识进一步细分为组构知识(organizational knowledge)和语用知识(pragmatic knowledge);语用知识被界定为“实现句子、话语或语篇与交际目的、交际语境之间关联的知识体系”(Centre for Canadian Language Benchmarks,2015),具体涵盖功能知识(functional knowledge)与社会语言知识(sociolinguistic knowledge)两个层面。功能知识指“理解或表达口头及书面语篇字面意义之外深层意图的能力”(Centre for Canadian Language Benchmarks,2015),包含概念功能、操控功能、探究功能及想象功能等核心范畴;社会语言知识则聚焦“情境因素对实际语言运用方式的影响机制”(Centre for Canadian Language Benchmarks,2015),其研究范畴涉及题材类型、方言变体、语域特征、自然地道表达以及文化参照与修辞运用等方面。
利奇(Leech)(1983)将语用学定义为(在面向目标的言语情境中使用语言)S(说话人)使用语言,以便在H(听话人)的头脑中产生特殊效果。社会语言学家詹尼·托马斯(Jenny Thomas)于1983年在《跨文化语用失误》(Cross-cultural Pragmatic Failure)一文中提出了语用能力的定义。她将语用能力定义为“有效使用语言以达到特定目的和理解语境的能力”。在《中介语语用学》(Interlanguage Pragmatics)(2003)一文中,语言学家安妮·巴伦(Anne Barron)提供了更广泛的定义:“语用能力……被理解为在特定语言中可用于实现特定语言的语言资源的知识,语言连续方面的知识行为,最后是对特定语言的语言资源的适当语境使用的了解”。利奇(1983)将语用分为语言语用学和社会语用学。他认为,语用语言学具有语言确指性(language-specific),社交语用学具有文化确指性 (culture-specific)。后来的学者以利奇的概念为基础,提出语用能力分为语用语言能力(pragmalinguistic competence)和社会语用能力(sociolinguisitic competence),语言语用能力指“传递交际行为和关系或人际意义的资源”,社会语用能力指“参与者对交际行为的解释和表现背后的社会知觉”。(Kasper and Rose,2001)例如,在面试中,被面试者,经常避免使用俚语,慎重选择他们的表达,组织他们的发言。他们运用这些语言资源的能力与语言语用能力有关。他们对语言资源的控制是由他们对面试语境的认识以及他们对在这种语境中应该使用哪种语言的看法(例如:正式、礼貌)所指导和伴随的。这种意识被视为他们的社会语用能力。
Chen et al.(2024)等人在此基础上,制定了人工智能语用能力的评估标准。对于语言语用能力,从语言选择,惯用表达和策略选择三个方面进行评估,策略选择这一部分采用的是布鲁姆·库尔卡(Blum-bulka)的主要行为(head act)策略的分类。根据布鲁姆·库尔卡等人的研究,请求策略可以分为以下类型:
第一,直接策略:使用明确的言语行为动词,如“请帮我关闭窗户”。明确表述请求意图,以命令式或祈使句为主。
第二,间接策略:通过暗示或模糊语言表达请求,例如“这里有点冷”,以诱导听话者采取行动。
第三,修饰语和支持性结构(External Modifications and Supportive Moves):核心行为可以被解释性修饰语或支持性语言扩展,例如“抱歉打扰您,我可以借一下笔吗?”其中修饰语“抱歉打扰您”是一种礼貌调节。
在此基础上,可以更细分为情绪诱导(mood derivable)、预备疑问(query preparatory)、建议计划(suggestory formula)、义务表达(obligation statement)、希望表达(want statement)等单位。
至于社会语用能力的评估,则是采用调查问卷的方式,对产出文本的几类属性进行等级评估。Chen等人以这样的评估标准对ChatGPT的英文语用能力进行研究的结果表明,ChatGPT在测试的五个语用语言特征中的四个和六个社会语用特征中的五个方面表现得和人类参与者一样优秀。此外,与人类写的对话相比,ChatGPT生成的对话表现出更高的语法多样性和更强的正式感。并且实验的参与者无法区分ChatGPT生成的对话和人类书写的对话。但是,人工智能是否在其他语言中也具有同样的能力尚未可知,因此本研究想通过类似的研究方式研究Qwen大语言模型在日语方面的语用能力。本文主要涉及的是语言语用能力方面的研究。
三、研究设计
本文参考Chen et al.(2024)对ChatGPT英语语用能力的实验,进行对Qwen大语言模型在日语语言语用能力的实验,实验分为对人工智能大模型的语言选择、策略使用、惯用表现三个方面的实验。但是由于英语和日语分词方式的不同,日语无法使用英语语用能力研究中n-gram式的方法,因此本文不进行惯用表现能力的研究(表1)。
| 特点 | 方法 | 具体运用 |
|---|---|---|
| 语言选择 | 词汇多样性 | 使用NLTK计算词汇多样性。将会话中使用的单词总数除以该会话中使用的不同单词的数量。 |
| 句法多样性 | 同样使用NLTK计算句法多样性,根据依存关系树的数量来计算多样性。 | |
| 话语关系 | 使用PDTB-Styled End-to-End Discourse Parser,它可以识别所有篇章和非篇章关系,并对他们的关系进行分类 | |
| 策略使用 | 策略分类 | 根据布鲁姆·库尔卡和奥尔什泰因(Olshtain)等学者的言语行为的策略分类进行统计 |
由于请求行为的数量较多,策略使用的编码系统比较成熟。本文主要以请求行为例对Qwen大语言模型和从宇佐美所制作的《BTSJ1000人日语自然会话语料库》中语料的对语言语用能力的语言选择和策略使用的两个方面进行研究。《BTSJ日语自然会话语料库》是依据《日语基本转录规范》(BTSJ : Basic Transcription System for Japanese)建立的大型语料库,包含遵循该规范转录的文本数据与对应语音材料,为目前全球规模最大的日语自然会话语料库。截至目前,该语料库已公开377组会话记录收录的语料提供者突破1000人。该语料库系统收录了多种题材的会话数据,其数据收集目的与会话场景均经过标准化控制。基于这一特性,研究者在明确各组数据的收集目的与场景条件后,可结合影响说话者言语表达的关键社会因素——包括说话者的人口统计学属性(如年龄、性别等)及与对话对象的社会关系类型等开展针对性的实证分析。
研究方法为先输入合适的指令使人工智能生成与语料库相同主题,相同对话回合数的完整对话,考虑到话题的不同也可能导致用词多样性的差异,因此将人工智能所生成的话题也设定为与语料一致。
指令示例如下:
请查看上传的文件,并基于该文件创建具有相同主题、相同对话轮次(全部21轮)以及相同风格(包括说话方式、人物关系等要素)的对话。不需要任何格式(原指令为日文)。
在得到人工智能生成的文本后,先使用Python进行分词和统计,再通过SPSS对统计数据进行分析。
语篇关系方面参照宾州语篇树库进行分类。宾州语篇树库(Penn Discourse Treebank,简称PDTB)由宾夕法尼亚大学的研究人员创建,构建于《华尔街日报》文本子集的基础之上。其文本内容经过精细语篇关系标注,是自然语言处理中一项重要资源。主要用于研究语篇连贯性、语用传播和语言学理论,其核心目标是标注英文文本中的语篇关系。PDTB包含2302篇文章,共计约100万个单词。文章以《华尔街日报》(The Wall Street Journal)部分文本为基准,不仅覆盖了描述性新闻,还涉及评论性文章等多种文体。标注涉及明确连接词(explicit connective)、隐含关系(implicit relation)、替代关系(alternation symbolism)等关系。每种关系都精确定义了其语篇功能和概念类别。PDTB构建了层级化的语篇关系体系,包括以下几个主要层次:
第一,语篇连贯性:通过显式连词(如“因为”“但是”“尽管”等),或隐含语义连接词,构造连贯的句间语义关系。
第二,关系类型:主要涉及因果关系、条件关系、对比关系、并列关系等,帮助研究语篇逻辑和意图理解。
第三,论元(argument)分析:标注了连接词的两部分论元(Arg1和Arg2),它们是语篇关系的重要组成(Prasad et.al,2008)。
四、实验结果与分析
首先对从语料库收集到的语料和人工智能所生成的语料进行处理。本研究使用python的mecab系统下的chasen分词方法。本研究原本使用的owakati的分词方式会将行走和能走识别为两个不同的单词,而chasen的分词方式是通过分辨词性来进行的,对本研究来说具有更高的准确性。另外,原本该系统下的分词都是对短句进行分词处理,并没有将标点符号等纳入考虑,因此标点符号也会被识别为词语,在用代码进行分词前需要排除标点符号带来的影响。并且原文语料库中包含许多表示情态的内容,如笑、笑着、小声地等情态都需要事先筛除。处理人名、地名时同样需要进行手动处理,系统的底层逻辑是先对对话进行分词,再从字典中寻找相对应的单词进行分析。若是出现未出现在字典中的单词,则会先通过每个假名进行对应后再通过长度进行判断。因此本研究中一律不将人名、地名、书名等特殊单词纳入考虑范围。比如语料中的名字「JMR006」在代码中会被识别为6个总单词数,3个不同单词数。而像是请求对话中使用的昵称“红龙”和“黑蛇”则分别被识别为2个总单词数和2个不同单词数。
对词汇多样性数据进行独立样本T检验的结果为sig=0.91大于0.05说明方差齐性。P值为0.305大于0.05,说明人工智能和语料库的对话在词汇多样性能力之间没有显著的差异。但是从t值为-1.06可以看出人工智能在词汇多样性方面稍微优于语料库的对话的表现。分析其原因,其中之一是人工智能产出的对话中很少出现比如“杂,杂谈”这样通过重复来表现犹豫或者达到弥补口误的功能。而这种重复的出现则会略微拉低语料库多样性的指数。另外,相似的话题产生的词汇多样性差距的来源则是由于没有话题转换,对话回数的增加,话题中提到的名词以及各种语气词的重复使用使得词汇多样性下降,导致对话回数越多即使是相似的话题也会出现多样性差距变大的情况,即本研究控制人工智能生成文本和语料对话回数相同的原因之一。而人工智能在生成对话回数较多的对话时会使用转换话题的方法。经对比发现,有较大词汇多样性差异的对话2、3、4均为对话回合数相对较多的对话。
对句法多样性数据进行独立样本T检验的结果为sig=0.47大于0.05说明方差齐性。P值为0.224大于0.05,说明人工智能生成文本和语料库的语料在句法多样性能力之间没有显著的差异。对辛普森多样性数据进行独立样本T检验的结果是sig=0.482大于0.05说明方差齐性。P值为0.982大于0.05,说明人工智能和语料库的对话在辛普森多样性指数之间没有显著的差异。也就是说两者在依存构造树的分布均匀程度上没有显著的差异。
辛普森多样性指数基本思想为在无限大小的群落中,随机抽取两个个体,它们属于同一物种的概率取决于物种多样性大小。物种多样性越高,则两个样本属于同一物种的概率越小,属于不同物种的概率越大。主要聚焦在最后一组差异性较大的对话,在最后一组的自然语料中,两者显然因为关系的疏远而要对对方实行请求行为时感到十分尴尬,出现了许多「嗯」「喔」等语气词的使用,而人工智能生成的语料中确实两人关系融洽地进行着有关话题的对话。在差异性第二大的对话2中同样也是这种情况。自然语言语料中多使用「嗯」「好」等进行对话,而人工智能生成的语料则趋于正常的对话。这说明该语言模型还无法很好地模拟对话难以进行的情况。
根据PDTB的分类,语篇中的语篇关系可大致分为隐性关系和显性关系两种。显性关系是指有着明显连接词所表示的语篇关系。例如。隐性关系则是没有明显的连接词,需要从上下文中推测的语篇关系。显示关系通过模型来统计而隐式关系通过人工进行标注。另外日语中经常使用的话题转换可以被认定为语篇关系中的补充关系(Supplement)。补充关系虽然没在PDTB中明确标注,但是在各项研究中均作为延展(Expansion)的子分类或是隐式表达中使用,因此本文将补充关系作为延展的子分类的连接(Conjunction)的一种语义延伸进行研究。
| 语篇关系 | 语料库 | 人工智能 |
|---|---|---|
| 时态(Temporal) | ||
| 异时(Asynchronous) | 0.014 | 0.018 |
| 共时(Synchronous) | 0.011 | 0.031 |
| 偶然(Contingency) | ||
| 原因(Cause) | 0.033 | 0.036 |
| 条件(Condition) | 0.036 | 0.058 |
| 比较(Comparison) | ||
| 对比(Contrast) | 0.007 | 0.011 |
| 让步(Concession) | 0.02 | 0.018 |
| 延展(Expansion) | ||
| 连接(Conjunction) | 0.165 | 0.187 |
| 替代(Alternative) | 0.005 | 0.005 |
| 礼貌(Manner) | 0.06 | 0.036 |
| 重申(Restatement) | 0.071 | 0.065 |
从表2中的数据观察来看,语料库中的自然语料和人工智能生成文本在话语关系的使用上几乎完全一致。两者均在延展子分类中的连接分类中有着最高的使用频率,这是由于无论是人工智能生成文本还是自然语料,日语的对话中经常通过“那”“那个”等词语进行话题的提起或者话题的转换。使用频率第二高的则是重申(restatement)子分类。人工智能生成文本和自然语料中都有使用“对”“对的”来附和对方的发言,以及在符合对方发言后增加额外信息的方式来使请求行为成功的概率更高的现象。而在偶然(contingency)的条件(condition)的子分类中,人工智能明显更偏向使用条件句「……就」、「……的话」来进行请求行为的对话,通过向对方承诺报酬或者得到好处的方式来增加请求行为的成功率。另外,在自然语料中相对来说比人工智能使用更多的则是礼貌(manner)的子分类。人工智能原本经常被诟病过于拘泥于礼貌表现,而这次的实验出现了截然不同的结果。推测理由出自于指令之中。人工智能只能从所提供语料中两者的对话风格和内容中确认会话中两者的关系,并以此为基础生成会话。而人工智能很有可能通过简单的对话认为两者是关系亲近的朋友,而在其中的几个自然语料中,两者的关系明显是比较疏远的,对话的进行也相对比较尴尬,这使得人工智能生成的文本的礼貌程度相较于自然语料要低。
从主要行为来看(图2),自然语料中有使用情绪诱导(mood Derivable),对冲表述(hedge performative)请求策略的情况,而人工智能生成的文本并不使用这种相对来说较为直接的请求行为策略,而是集中使用强烈暗示(strong hint)和微弱暗示(mild hint)两种对听话者来说最为不直接的请求行为策略。这种现象的原因同样可能来源于上述所说人工智能对说话者的关系程度认知不准确或是人工智能有使用对面子威胁更小的策略的倾向。
在支持性行为方面(图3),人工智能生成文本和自然语料表现出对预先承诺(precommitment)和约定(promise)有相近的高使用频率。除此以外,人工智能生成文本比自然语料使用更多的其他支持性行为来确保请求行为的成功。如理解(understanding),依据(grounder)以及更高频率的最小化代价(cost minimizer)和说好话(sweetener)行为。具体表现为人工智能在生成的会话中会使用更多称赞对方的表达,以及通过告知对方本次实验并不需要花费太多的精力等话语来使得请求行为更容易成立。
在附加成分方面,自然语料和人工智能在追加信息(follow up info)方面都有较高的使用频率。另外,自然语料侧重使用道歉(apology)和确认(confirmation)的策略来推进请求行为的进行。如“有点不好意思”“突然打扰很抱歉”等道歉的语言以及“真的可以吗”“真的吗”等来确认对方是否接受请求。人工智能则倾向于使用感谢的语言来推进请求行为。这可能与大模型中有关感谢的训练输入比较多有关。从总体使用量来说,在附加行为方面,自然语料比人工智能使用的频率更高,也就是说在请求行为中,自然语料更偏向于使用附加行为,而人工智能更倾向于使用支持性行为来避免对方的拒绝。
五、总结
本研究以Qwen3大语言模型为研究对象,参考Chen等人的评估标准,通过与《BTSJ1000人日语自然会话语料库》的语料进行对比,从语言选择、策略使用两个维度探究了该模型的日语语言语用能力,填补了人工智能在非英语语用能力研究领域的部分空白,也为大语言模型服务于日语语言学研究提供了实证参考。
实验结果显示,Qwen3大语言模型在日语语用能力的核心维度上表现优异。在语言选择方面,模型生成文本与自然语料在词汇多样性、句法多样性及辛普森多样性指数上均无显著差异,仅因模型较少出现口语化重复词汇、会主动转换话题,在词汇多样性上略优于自然语料。语篇关系层面,两者在延展类的连接关系、重申关系上使用频率高度一致,仅在条件关系、礼貌关系的使用上存在细微差异,模型更倾向用条件句推进请求,自然语料则更注重礼貌表达。在策略使用上,模型偏好采用强烈暗示、微弱暗示等间接请求策略,且高频使用支持性行为保障请求成功;自然语料则更依赖附加行为中的道歉、确认等表达推进对话。
同时,本研究也发现了Qwen3大语言模型在日语语用能力上的局限性。该模型难以精准模拟会话者关系疏远时的尴尬对话场景,对交际双方社会关系的认知存在偏差,且在请求策略选择上过度倾向于面子威胁小的间接方式,与自然口语中的策略多样性存在差距。此外,受日语分词特点限制,本研究未涉及惯用表现维度的探究,研究范围存在一定局限。
未来研究可进一步拓展语料范围,纳入不同年龄、地域、社会关系的日语会话数据,完善人工智能日语语用能力的评估体系。同时,可针对模型对交际语境和社会关系的感知偏差问题,优化模型训练数据与指令设计,提升其对复杂言语交际场景的适配能力。此外,也可开展Qwen3与其他主流模型的跨模型对比研究,以及日语与英语、汉语等多语言语用能力的横向比较,为多语种大语言模型的语用能力优化提供更全面的参考。
参考文献:
- [1] Bachman L F, Palmer A S. Language assessment in practice: developing language assessments and justifying their use in the real world[M]. Oxford: Oxford University Press,2010.
- [2] Blum-Kulka S, Olshtain E. Requests and apologies: a cross-cultural study of speech act realization patterns (CCSARP)[J]. Applied linguistics,1984,5(03):196-213.
- [3] Blum-Kulka S, House J, Kasper G. Investigating cross-cultural pragmatics: an introductory overview[M]//Blum-Kulka S, House J, Kasper G. Cross-cultural pragmatics: requests and apologies. Norwood, NJ: Ablex,1989.
- [4] Leech G N. Principles of pragmatics[M]. London: Longman,1983.
- [5] Cai Z G, Duan X F, et al. Does ChatGPT resemble humans in language use?[J/OL]. (2023-03-14)[2025-05-05] https://aclanthology.org/2023.naloma-1.3/
- [6] Thomas J. Cross-cultural pragmatic failure[J]. Applied linguistics,1983,4(02):91-112.
- [7] Kasper G, Rose K R. Pragmatics in language teaching[M]//Rose K R, Kasper G. Pragmatics in language teaching. Cambridge: Cambridge University Press,2001.
- [8] Qiu Z, Duan X F, Cai Z G. Pragmatic implicature processing in ChatGPT[EB/OL]. (2023-06-07)[2025-07-05]. https://www.researchgate.net/publication/370758279_Pragmatic_Implicature_Processing_in_ChatGPT
- [9] Prasad R, Dinesh N, Lee A, et al. The Penn Discourse TreeBank2.0[C]//Proceedings of the sixth international conference on language resources and evaluation (LREC’08). Marrakech, Morocco: European Language Resources Association (ELRA),2008.
- [10] Su Y W, Ren W. Developing L2 pragmatic competence in Mandarin Chinese: sequential realization of requests[J]. Foreign language annals,2017,50(02):433-457.
- [11] 袁毓林. 超越聊天机器人,走向通用人工智能——ChatGPT的成功之道及其对语言学的启示[J]. 当代语言学,2023,25(05):633-652.
- [12] 张家铖. 大语言模型综合性能评估报告[R]. 北京: 清华大学新闻与传播学院新媒体研究中心,2023.
