
教育创新与实践
Journal of Educational Innovation and Practice
- 主办单位:未來中國國際出版集團有限公司
- ISSN:3079-3599(P)
- ISSN:3080-0803(O)
- 期刊分类:教育科学
- 出版周期:月刊
- 投稿量:5
- 浏览量:448
相关文章
暂无数据
人工智能在写作测评中的应用现状与未来展望
Current Applications and Future Prospects of Artificial Intelligence in Writing Assessment
引言
在第二语言学习中,写作产出是一项核心技能,因此二语写作测评逐渐受到国内外学者与教师的高度重视。在英语教学实践中,教师对作文提供有效反馈已被视为写作指导的关键环节。由此可见,“学生写作”与“教师批改”并非相互独立,而是相辅相成,写作评估的根本目标在于促进学生二语写作能力的发展。然而,传统的人工评估方式仍存在一定局限性,如评分标准相对单一、批改过程耗时费力,难以充分满足学生的个性化需求,同时也可能在一定程度上影响评估的信度。
生成式人工智能于教育领域之应用,乃人工智能技术迅猛发展之表征。此应用于辅助教师开展写作测评时,彰显出提升信度与效度之潜力,遂成为语言测试领域重要研究关注点。教育评价进程正受人工智能融入之重塑,二语写作测评方面体现尤甚。现存评估工具诸如Grammarly、Turnitin与CoGrader等,能径直对学生写作予以评分,且依据语言及内容提供个性化反馈,于一定程度上减轻教师工作负荷。从某种意义而言,这些工具具备“替代”部分人工评估之功用,并拓展传统测评思路。潜在可替代性在学界与实践领域引发对人工智能于教育测评中角色的持续探讨。
本文将以语言测试理论作为基础,人工智能于写作测评之应用及所遇挑战将由本文详探。应对策略并具,技术与测评理论深度融合之未来展望,亦将予呈。
一、人工智能在写作测评的发展历程
关于二语写作自动化测评的探究已历经长久岁月。在初始阶段的探寻之中,其焦点主要置于凭借计算机达成评分自动化层面,以此达成效率与一致性的提升。1996年,美国教育考试服务中心把计算机化评估引入写作测评流程,目的在于削减人力与物力方面的成本投入。2002年,Turmer与Upshur提出了针对作文批改以及成绩评定的模型,意图在于增强测评所具备的可靠性与准确性。紧随其后出现的智能作文评估系统,将范文当作训练集,经由与考生作文的比对从而完成评分工作,这在一定程度上对作文内容评价所面临的难题起到了缓解作用。自20世纪90年代起,人机协作评分技术呈逐步发展态势,其中IntelliMetric、E-rater以及BETS系统,最具代表性。其中,E-rater因于托福等大型标准化考试当中得到广泛运用,进而备受关注。学者们指出,早期自动化评估存在局限性。诸如机械化倾向、评价维度单一,以及句法识别错误等一系列问题,都有可能对测评的信度与效度造成影响。评分结果易受文本特征(像篇幅以及语法复杂度)的干扰。传统评分方式难以满足教师与学生日趋多样化的需求。即便经过严格培训,人工评分依旧可能受到主观因素的影响。开发更为智能且可靠的评估工具,对提升写作教学与学习的有效性意义重大。
二、人工智能在写作测评中的优势以及应用
在科技不断演进的进程中,人工智能这一要素于教育变革领域逐渐占据关键地位,在写作评估与评分范畴尤显突出优势。依托机器学习以及自然语言处理技术构建的自动写作评价系统,针对学生文本产出具备有效评估能力。普遍而言,现存研究表明,人工智能不但能够助力教师向学生给予个性化写作建议,且在一定程度上可提升学生写作水准。鲁艳辉等人于2010年开展的研究揭示,借助智能评分系统实施写作训练后,学习者的反思性思维与分析能力得到显著强化,写作成绩亦随之提升。李霞对技术加持的写作反馈进行一步阐述,不仅提升了反馈成效,同时减轻了教师批改负担,增强学生写作动机与能力。张荔与盛越针对句酷批改网展开研究时发现,该系统的自动作文评阅反馈,可助力学生巩固合理语言表达,拓展同义词及近义词知识,并区分易混淆词汇。基于此,Lin和Crosthwaite于2024年的研究,将教师反馈与人工智能反馈相结合,证实此模式能显著提高教师批改效率以及作文评价整体质量。把人工智能与教师反馈相结合,还能够有效降低教师工作负担。人工智能的引入促使传统单一评分方式逐步向多维度反馈转变,其核心目标依旧围绕学生写作能力的发展。
尽管功能拓展、应用增多于写作评价里的人工智能,其评分结果的准确性与可靠性,质疑仍频遭。学界争论主要聚于两方面:自动化评分能否与人工评分保持一致为其一;机器对文章思想内容合理评估能力是否具备是其二。从评分效度和结构效度角度,现有研究大多展开探讨。人工智能生成反馈更详尽,然于文章立意及逻辑推进等深层次维度,常与教师评价存差异,挑战其结构效度。Steiss等指出,人工智能可生成高效、基于标准的反馈,初稿修改阶段有一定实用价值,整体反馈质量上,人工评价优势仍更显;低水平作文中,此差异尤突出,因人工智能处理复杂错误困难,且无法提供清晰改进方向。这些发现表明,人工智能潜力虽大,深度判断力不足,跨母语背景和不同语言水平下,取代人类对学生复杂表达精准评估能力仍难。大量研究为人工智能评分效度提供实证支持已有。Mizumoto和Eguchi 经12100篇托福作文大规模分析发现,AI评分与人工评分高度相关,规范化测评情境中,效度与可行性高显。Mayer等研究同样表明,人工智能商务邮件礼貌性分类准确度已可与人工相当,原理与自动化评分句子相似性机制高度契合。Hackl等进一步指出,写作评价引入人工智能,效率提升同时,教师工作负担能有效减轻。Yancey等按欧洲语言教学与评估框架性共同标准,10000份样本中比较GPT-3.5与GPT-4评分表现,结果显示GPT-4一致性水平(QWK = 0.81)已近人工评分,语言提示可进一步优化其表现。基于大语言模型新一代评估工具,文本测评和二语写作水平预测优势明显。Altamimi研究亦表明,人工智能跨学科写作能力评分效度较高,GPT-4表现尤突出。Lin和Crosthwaite研究发现,尽管GPT-4能基于语法规则提供元语言解释,反馈一致性和教学深度存不足,相同提示下常生成差异化回应;相比之下,教师内容逻辑与篇章结构等全局性问题优势更显著。此差异凸显GPT类工具应对高层次写作需求局限性。现有研究表明,人工智能自动写作评价中效能较高展现,但一致性与教学理解层面,仍需谨慎使用。
从整体视角审视,现有研究结论呈现出某些差异。以Mizumoto的研究为例,该研究依托大规模标准化的托福写作数据开展,鉴于评分标准具备明确性以及高度规范性,人工智能对于相关规则能够实现较为精准的掌握与判定。至于Dai的研究,更着重于对文本“深度理解”的探究,而这恰是当下人工智能所存的薄弱环节。相关实证研究自信度、效度以及评分一致性等多个维度,揭示出AI写作评价工具的双重特性。在提升评分效率以及识别表层语言特征方面,其展现出显著优势。然而在评估写作思想深度、逻辑连贯性等高层次能力时,该工具的结构效度尚显欠缺,迫切需要展开进一步的探索与完善。
三、人工智能在写作测评中挑战以及未来展望
(一)人工智能在写作测评使用中的挑战
在人工智能测评领域,国内外学者的研究大量聚焦于其快速、高效及低成本等方面。写作批改中人工智能的运用,经大量实证研究表明,不但可提升评分效率、减轻教师工作负担,还能够为学生提供个性化反馈,且在一定程度上产生积极反拨作用。大语言模型因主要依赖训练数据,特定群体或个体偏向的存在难以避免。人工智能与测评的结合,虽在效率方面具备显著优势,然而其引发的伦理问题不容小觑,一些不负责任的应用甚至有导致偏见或歧视的可能。如哈尔滨工业大学教授秦兵所指出的,使大语言模型价值观与人类保持一致,是迫切需要解决的重要问题。教育技术引入课堂,并非仅局限于工具层面的使用,而是涉及教育学诸多环节的系统性变革。
Hao等人在研究里归纳出大语言模型以及人工智能在文本处理领域的若干局限之处。首先,就可解释性而言,用户通常只能看到结果,生成过程的追溯却存在困难。大语言模型训练依赖大规模语料,然而训练数据是否涉及版权问题,用户难以确认,一旦生成内容与原始语料过度接近,则可能被视作抄袭。而且,训练数据自身或含偏见,致使输出结果呈现歧视倾向。其次是信息真实度,人工智能基于数据展开训练,面对“知识盲区”时,易生成与事实毫无联系的内容。模型对结构化语料存在依赖,于言外之意及深层语义的把握欠佳,可迁移性方面难以企及人类理解水准。在输出一致性上,鉴于生成依托概率分布且模型处于动态更新状态,即便输入全然相同,输出结果也可能有所差异。若用户提示和生成内容被用于再训练,数据隐私与安全层面或引发数据安全、知识产权及隐私泄露等问题。虽然托管式服务在隐私保护方面优势更甚,但其开发与维护成本偏高。生成安全性上,人工智能不仅可能产出虚假信息,还有生成有害或不当内容的可能,即便借由强化学习等手段予以优化,系统风险依旧难以彻底消除,始终合法、可靠与安全难以确保。
除技术引发焦虑外,虽然教师普遍认知科技对教育影响深刻,但相当部分人难触及或有效运用相关工具,更难实现真正技术赋能。部分教师对人工智能用于教育评价持谨慎态度,主要担忧聚焦评分公平性及对学生成绩评定可能产生的负面影响。此现象背后原因多样,如不同地区因技术水平与资源分配差异致教育公平问题,或教师自身对技术缺少兴趣,以及操作生成式人工智能工具(如豆包、DeepSeek等)时难精准下达指令。实则,教师所忧评分不公,与人工智能固有局限直接关联:一则,训练数据或含偏见,继而影响评分结果;二则,生成模型依概率分布运行,致使评分缺乏稳定性。人工智能有生成虚假或不当信息之风险,令教师忧其带来负面后果。人工智能“黑箱”特性致其决策过程难解释,且于理解教学情境深层语义方面尚显不足,进一步削弱教师信任。教师对人工智能之谨慎态度,在一定程度上可视作对当前技术局限的理性回应。
(二)对人工智能在写作测评的未来展望
针对人工智能在写作测评应用中存在的技术风险与教师担忧,本文提出以下几点改进建议。
在政府层面,相关部门应出台更具指导性的政策文件,以规范和引导人工智能技术在写作测评领域的健康发展。此举可借鉴2017年国务院发布的《新一代人工智能发展规划》的战略思路,该规划系统阐述了我国人工智能发展的阶段性目标与治理框架,展现了应对技术不确定性的前瞻意识。在国际上,已有成熟的操作范例可供参考。例如,2022年国际考试委员会(International Test Commission)与考试出版商协会(Association of Test Publishers)联合发布的《基于技术的评估指南》,系统剖析了技术融入测评各环节的关键问题。2023年,美国教育部发布的《人工智能和教学的未来:见解和建议》强调必须坚持以教师为中心(teacher-in-the-loop)的理念,鼓励教师参与AI技术的设计、选择与评估过程。同年,英国语言测评协会(British Assessment Society)发布的《语言测评中的人工智能应用》则详细探讨了AI的具体应用场景与潜在风险。
要实现技术赋能的语言测评,社会与个人层面需协同努力。在教师培训方面,可在职前与在职培训课程中增设“技术赋能语言测评”模块。培训应由领域专家主导,引入理论与实践议题,并提供测试开发、实施、评分及基于数据的反馈等实操训练。尤为关键的是,培训中应关注教师如何在其特定的教学情境中应用这些理论与资源。应为教师创造机会,反思其关于测评(包括机器评分)的外显与内隐观念,这有助于转变其可能存在的消极信念与态度。教师自身亦应主动利用现有资源,学习与AI协同评分的策略(如有效的指令工程),以达成更优的人机协同。对于语言测试领域而言,必须顺应时代潮流,借助智能技术全面提升考试的自动化与智能化水平。同时,测评工作者也需持续关注并审慎评估智能评分技术可能带来的负面影响,如算法偏见、效度问题及对教学的反拨效应。
四、结语
人工智能在写作测评中的应用已从早期的浅层语言特征分析演进至如今基于大语言模型(如GPT-4)的深度语义理解与生成反馈,展现出在提升评分效率、一致性与提供即时反馈方面的巨大潜力。当前研究证实,在有效的指令工程驱动下,AI评分与人工评分可达到高度相关与良好一致性,为低风险形成性评价及大规模考试的人机协同评分提供了可能。然而,现状亦面临挑战:其评分逻辑的“黑箱”性质、对抽象评分标准与语境化内容理解的局限以及可能引发的应试策略与教学负反拨效应不容忽视。在未来的日子里,AI写作测评的发展路向应是构建“以人为本”的智能测评新范式。这并非以机器取代教师,而是走向深度人机协同。未来需致力于开发更透明、可解释的算法,深化AI对语言能力构念的理解,并重点探索如何将教师的专业智慧与AI的高效计算能力相结合,共同作用于教学—评价—反馈的闭环之中,最终目标是为促进学生的写作能力发展提供更精准、个性化和富有教育意义的支持。
参考文献:
- [1] Alsalem M S. EFL teachers' perceptions of the use of an AI grading tool (CoGrader) in English writing assessment at Saudi universities: An activity theory perspective[J]. Cogent education, 2024, 11(01):100228.
- [2] Heaton J B. Writing English language test[M]. London: Longman, 1988.
- [3] Hussein M A, Hassan H, Nassef M. Automated language essay scoring systems: A literature review[J]. PeerJ computer science, 2019, 5: e208.
- [4] Lin S, Crosthwaite P. The grass is not always greener: Teacher vs. GPT-assisted written corrective feedback[J]. System, 2024, 127:103529-103529.
- [5] Patel M, Solly M, Copeland S. The future of English: Global perspectives[M]. London: British Council, 2023.
- [6] Steiss J, Tate T, Graham S, et al. Comparing the quality of human and ChatGPT feedback of students' writing[J]. Learning and instruction, 2024, 91(000).
- [7] Turner C E, Upshur J A. Rating scales derived from student samples: Effects of the scale maker and the student sample on scale content and student scores[J]. TESOL quarterly, 2002, 36(01):49-70.
- [8] Warschauer M, Ware P. Automated writing evaluation: Defining the classroom research agenda[J]. Language teaching research, 2006, 10(02):157-180.
- [9] 董艳云, 祁昕阳, 马晓梅. 基于GPT-4的英语写作自动化评估探索——以雅思写作任务2为例[J]. 语言测试与评价, 2024(02):13-30.
- [10] 高海英. 国内外二语写作评估研究现状与思考[J]. 外语界, 2010(02):77-82.
- [11] 霍紫莹. 国内大规模考试作文自动评分:挑战与路向[J]. 教育与考试, 2025(02):22-25.
- [12] 李宁, 张贤蓉, 刘樊秋. 新课程改革中教师教学效能感的实证研究[J]. 赣南师范学院学报, 2005(01):18-21.
- [13] 李霞, 钟兰凤. 作文自动评价系统在大学英语写作教学中的实证研究——以句酷批改网为例[J]. 教学研究, 2017, 40(01):57-61.
- [14] 梁茂成, 文秋芳. 国外作文自动评分系统的评述以及启示[J]. 外语电化教学, 2007(05):18-24.
- [15] 鲁艳辉, 谭福民, 彭舜. 智能写作评分系统在大学英语写作中的实证研究[J]. 现代教育技术, 2010, 20(06):56-58.
- [16] 唐锦兰, 吴一安. 在线英语写作自动评价系统应用研究述评[J]. 外语教学与研究, 2011, 43(02):273-282+321.
- [17] 王天恩. ChatGPT的特性、教育意义及其问题应对[J]. 思想理论教育, 2023(04):19-25.
- [18] 魏爽, 李璐遥. 人工智能辅助二语写作反馈研究——以ChatGPT为例[J]. 中国外语, 2023, 20(03):33-40.
- [19] 杨正来. 高中薄弱学生英语作文有效指导策略研究[J]. 教育科学论坛, 2016(04):62-65.
- [20] 张荔, 盛越. 自动作文评阅系统反馈效果个案研究[J]. 外语电化教学, 2015(03):38-44.
