国际期刊投稿平台
登录 | 注册
当前位置: 首页 > 教育创新与实践 > 编程教育对K-12学生学习效果的影响研究——基于二阶元分析的实证研究
教育创新与实践

教育创新与实践

Journal of Educational Innovation and Practice

  • 主办单位: 
    未來中國國際出版集團有限公司
  • ISSN: 
    3079-3599(P)
  • ISSN: 
    3080-0803(O)
  • 期刊分类: 
    教育科学
  • 出版周期: 
    月刊
  • 投稿量: 
    5
  • 浏览量: 
    625

相关文章

暂无数据

编程教育对K-12学生学习效果的影响研究——基于二阶元分析的实证研究

The Impact of Programming Education on K-12 Students' Learning Outcomes: A Second-Order Meta-Analysis

发布时间:2026-05-13
作者: 盛玺,李青 :北京邮电大学 北京;
摘要: 可视化编程因其直观性与封装性,已成为中小学编程教育的重要方式。以往关于其对学习效果影响的研究多采用一阶元分析,但该方法存在抽样误差和发表偏倚,导致结论可信度不足。相比而言,二阶元分析能在更大范围内整合实证研究,提高结果准确性。本研究首先梳理了相关一阶元分析研究,阐述二阶元分析原理,进而对10篇一阶元分析文献进行定量综合,探索可视化编程对K-12学生学习效果的整体影响及其调节因素,并据此提出设计与应用建议,以期为编程教育研究提供参考。
Abstract: Visual programming, characterized by its intuitive operation and simplified encapsulation, has become an essential approach for programming education in primary and secondary schools. Previous meta-analyses investigating its effects on K-12 students' learning outcomes have predominantly relied on first-order meta-analysis. However, this method is subject to sampling errors and publication bias, casting doubt on the reliability of its conclusions. In contrast, second-order meta-analysis integrates empirical studies on a broader scale, thereby enhancing the accuracy of research findings. This study begins by reviewing first-order meta-analyses on the impact of visual programming on K-12 students' learning outcomes and elaborates on the fundamental principles of second-order meta-analysis. It then quantitatively synthesizes 10 first-order meta-analyses to explore the overall effects and moderating factors of visual programming on learning outcomes. Based on the findings, suggestions for the design and application of visual programming are proposed, aiming to provide a reference for research and development in programming education.
关键词: 二阶元分析;可视化编程;学习效果
Keywords: second-order meta-analysis; visual programming; learning outcomes

引言

为应对人工智能的迅速发展,教育部2018年发布的《教育信息化2.0行动计划》明确提出“加强学生信息素养培育”“充实人工智能和编程课程内容”等要求。2022年《义务教育课程方案和课程标准》进一步要求在三至八年级独立开设信息科技课程,将计算思维列为核心素养。可视化编程工具因其操作直观、逻辑封装等特点,可降低编程门槛、提升学习兴趣,有助于计算思维的培养。

自2020年起,编程教育领域的元分析研究迅速增加,多数研究证实编程教育对学生学习效果具有显著正向影响。然而,研究结论仍存在争议:一方面,不同研究对编程教育效应量的估计尚未达成共识;另一方面,元分析本身受限于样本规模,存在抽样误差和发表偏倚,影响了结论的准确性。为此,本研究采用二阶元分析方法,系统整合相关实验与准实验研究,探索编程教育对K-12学生学习效果的整体影响及其调节因素,以形成更为可靠的研究结论。

一、研究现状及问题提出

(一)编程教育对学生学习效果影响的一阶元分析研究

梳理相关一阶元分析文献后发现,绝大多数研究表明编程教育正向影响学生学习效果,但对调节变量的影响尚未达成共识。部分研究肯定了编程教育的积极作用:董艳等发现编程教学对青少年高阶思维技能有中等促进作用;陈鹏等指出可视化编程对K12学生认知、行为、情感态度均有促进作用;韩雪婧等证实编程教育对中小学生学习效果具有中等正向影响。然而,也有研究存在争议:董艳等发现编程对问题解决能力效果较小;房敏等认为可视化编程对学习效能培养作用较低,且在不同学段、实验周期上无显著差异,这与韩雪婧、孙立会等结论相悖。对于调节变量,学者研究角度各异:有研究认为教学学段、教学策略、编程形式是调节因素,也有研究指向样本规模、实验周期和评价工具。一阶元分析虽能减少抽样误差,但难以充分处理研究间异质性,客观性存在局限。二阶元分析作为更高级别方法,能系统分析研究差异,深入探讨影响编程教育效果的因素。因此,本研究采用二阶元分析,尝试回答:K-12阶段编程教育是否真正有效?哪些变量调节其学习效果?

(二)二阶元分析

二阶元分析又称“伞式综述”或“元分析的元分析”,是由Cooper与Koenka系统提出的一种对多个一阶元分析结果进行定量整合的方法,其核心目标是通过合并效应量减少二阶抽样误差、估计真实效应。该方法起源于社会科学领域对跨文化差异的验证需求,后逐步拓展至教育学、心理学等领域,形成了包括异质性检验和调节变量分层分析的标准化流程。

相较于传统一阶元分析,二阶元分析的核心优势在于统计效能的增强与异质性解析的深化。通过整合多个独立一阶元分析的样本,它能够在更大样本量基础上降低抽样误差,尤其适用于跨文化或跨群体变异性检验,具体表现为:能够得出更可靠结论;能够比较不同研究间的差异;能够利用异质性检验多种调节变量影响;能够弥补一阶元分析的不足;研究成本较低,可广泛总结研究整体情况。

二阶元分析的适用需满足严格前提条件:效应量需具备统计独立性;调节变量需明确定义且可操作;异质性阈值控制(通常要求一阶元分析I²值低于75%)是避免过度变异干扰的关键。

总之,二阶元分析克服了一阶元分析的抽样误差与研究不一致等局限,为精确评估编程教育在K-12阶段的应用效果及其影响因素提供了强有力工具。

二、研究设计

(一)文献来源

本研究以中国知网、Web of Science、ProQuest、Science Direct为数据库,检索2015—2025年发表的相关文献。中文文献检索标题含“元分析”“系统评价”“综述”,关键词含“编程”“机器人”“K-12/中小学学生”,并含“学习效果”“学习成绩”“计算思维”“个体发展”。外文文献检索标题为“review”“meta-analytic”“meta-analysis”,主题词为“program* or code or LOGO or Scratch or unplugged”“thinking or ability or influen”“students or child or teenager or K-12”“research or study”。同时采用文献回溯法反查,以防缺漏。

(二)样本筛选

筛选标准:主题为编程教育对K-12学生学习效果的影响;研究对象为基础教育阶段学生;研究方法为元分析;数据完整(含样本量、效应量、标准误);中英文文献。按此筛选后,剔除2篇样本信息重叠率超25%的文献,最终纳入10篇一阶元分析,样本信息重叠率为8.54%。完全排除重复实证研究后,样本涵盖1990—2024年间159项实证研究,总参与者16542人。

(三)特征值编码

接下来,本研究对文献进行特征值编码,以便于后续统计分析和效应量计算。编码内容包括:作者姓名、出版年份、来源按实际情况录入;语言编码为中、英文;效应量类型编码为Cohen's d或Hedges's g;样本量和效应量按原始数值录入;发表偏倚情况编码为有偏倚、无偏倚或未说明。标准误的处理方式为:若原文提供标准误则直接录入,否则根据95%置信区间上下限差值计算,计算公式(1)为:SE=(95%CIupper limit–95%CIlower limit)/3.92。

编码由两名具有教育技术专业背景的研究者独立完成,一致性系数(Cohen's kappa)为0.85,表明编码一致性较高。对于存在异议的项,经多次讨论后达成一致。最终编码结果如表1所示。

表1 编码结果
作者姓名及出版年份 效应量类型 样本量 效应量 标准误 发表偏倚 教育成效评估 实验周期 实验学段
张银荣等(2023) Hedges's g 32 0.39 0.082 无偏倚 认知层面 短期、中期、长期 小学、中学
陈鹏等(2023) Cohen's d 145 0.68 0.041 无偏倚 认知、非认知 短期、中期、长期 小学、中学
房敏等(2020) Cohen's d 101 0.47 0.046 无偏倚 认知、非认知 短期、中期、长期 小学、中学
孙立会等(2021) Cohen's d 74 0.61 0.069 无偏倚 认知、非认知 短期、中期、长期 小学、中学
韩雪婧(2022) Hedges's g 68 0.50 0.060 无偏倚 认知、非认知 短期、中期、长期 小学、中学
董艳等(2022) Cohen's d 84 0.61 0.050 无偏倚 认知、非认知 短期、中期、长期 小学、中学
Feng Li等(2022) Hedges's g 31 0.58 0.083 无偏倚 认知、非认知 短期、中期、长期 小学、中学
Peng Chen等(2023) Hedges's g 16 1.03 0.197 无偏倚 认知、非认知 短期、中期、长期 小学、中学
Yanjun Zhang等(2024) Hedges's g 22 0.63 0.086 无偏倚 认知、非认知 短期、中期、长期 小学、中学
Enwei Xu等(2023) Hedges's g 98 0.72 0.059 无偏倚 认知、非认知 短期、中期、长期 小学、中学

(四)调节变量设置

本研究参照Hew等的研究,纳入实验周期、实验学段、研究质量及教育成效评估作为调节变量。实验周期分为短期(0-5周)、中期(5-10周)和长期(10周以上);实验学段分为小学(K-5)和中学(K6-K12);教育成效评估分为认知层面(计算思维、编程能力、推理能力、创造性思维及数学能力等)和非认知层面(编程动机、态度、兴趣、自我效能感等)。研究质量采用R-AMSTAR工具评定,划分为优、良、中、差四个等级,由两名研究者共同完成。

(五)数据分析

数据分析包含三个步骤:第一,合并效应量计算:遵循Steenbergen-Hu等的方法,从各一阶元分析中提取样本量、效应量及标准误,将所有效应量转化为Hedges's g值并按样本量加权合并。根据异质性检验结果选择模型(高异质性用随机效应模型,反之用固定效应模型)。第二,发表偏倚评估:采用漏斗图与Egger's回归进行检验。第三,调节效应检验:通过亚组分析比较组间效应量差异。以上分析均通过CMA2.0软件完成。

三、研究结果

(一)合并效应量分析

本研究首先进行异质性检验,结果如表2所示,I²=83.5%、Q=72.719(p<0.001),说明研究样本存在较高异质性(I²>50%),因此选择随机效应模型计算合并效应量。合并效应量(Cohen's d表)为0.432,95%置信区间为0.386~0.478(p<0.001)。

表2 异质性检验结果
效应模型 效应量 标准误 95%置信区间 异质性检验结果
上限 下限 Q df p
固定效应模型 0.42 0.01 0.41 0.44 72.719 0.000 83.5
随机效应模型 0.43 0.02 0.39 0.48

(二)发表偏倚检验

本研究得到的漏斗图如图1所示,采用Egger检验和Trim-and-Fill方法评估发表偏倚。Egger检验结果显示偏倚不显著(t=0.224,p=0.822),漏斗图未观察到显著的偏倚特征。通过Trim-and-Fill方法进一步检测可能的发表偏倚,估算右侧可能遗漏的研究为16篇,补充后,合并效应量为0.478,95%置信区间为0.433~0.523(p<0.001),说明发表偏倚对效应量的影响较小。

funnel_trim
图1 漏斗图

(三)调节效应分析

本研究得到的调节效应分析结果如表3所示,可以看出教育成效评估、实验学段、实验周期和研究质量的组间效应显著(p<0.05)。在教育成效评估方面,认知层面(g=0.485)与非认知层面(g=0.355)相比具有较高的效应量。在实验学段方面,小学(g=0.475)比中学(g=0.459)的效应量稍微高些。在实验周期方面,按照效应量从大到小排序分别是短期(g=0.424)、中期(g=0.417)和长期(g=0.400)。在研究质量方面,研究质量为差的一阶元分析研究具有最高效应量(g=0.831),其次是研究质量为良(g=0.547)和研究质量为优(g=0.515)的一阶元分析研究,研究质量为中的一阶元分析研究效应量最低(g=0.403)。

表3 调节效应分析结果
调节变量 类型 效应量数 效应量(g) 标准误 95%置信区间 组间效应Qb(P)
下限 上限
教育成效评估 认知层面 10 0.485 0.064 0.361 0.610 86.95***
非认知层面 9 0.355 0.066 0.225 0.485
实验学段 小学 10 0.475 0.074 0.330 0.620 69.77***
中学 10 0.459 0.086 0.291 0.627
实验周期 短期 10 0.424 0.074 0.279 0.570 104.55***
中期 10 0.417 0.068 0.283 0.551
长期 10 0.400 0.068 0.267 0.534
研究质量 3 0.515 0.096 0.326 0.703 9.677*
3 0.547 0.249 0.060 1.035
2 0.403 0.062 0.281 0.524
2 0.831 0.124 0.589 1.074

注:*p<0.05,***p<0.001。

四、结果讨论

(一)编程教育对K-12学生学习效果的整体影响

研究结果表明,编程教育对K-12学生学习效果具有中等程度正向影响(g=0.432),这与编程教育本身的逻辑建构性、实践交互性和跨学科整合性密切相关。学生不仅掌握编程技能,还能实现认知与能力的综合发展,与Popat等研究结论一致。根据Cohen标准,0.432为中等效应量,较早期元分析有所提升。二阶元分析通过整合多项一阶元分析数据,更全面揭示了编程教育的整体效果。

从教育成效评估来看,编程教育对认知层面(如计算思维、问题解决能力)的影响(g=0.485)显著高于非认知层面(g=0.355)。原因在于:编程教学以任务驱动和项目导向为主,天然契合认知能力培养目标;而情感态度等非认知因素需长期持续干预才能产生显著变化。此外,认知成果易于通过标准化测验量化评估,非认知层面多依赖问卷等主观方法,受测评工具信效度限制较大。

(二)编程教育对学生学习效果影响的调节因素

1. 学段对编程教育效果的调节作用

从不同学习阶段来看,编程对小学生和中学生的学习均具有中等促进作用,效应量分别为小学(SMD=0.475)和中学(SMD=0.459),组间效应检验Chi2=69.77(p<0.001),表明不同学段间存在显著差异。小学生效应量略高的原因可从认知发展、教学策略及社会文化三个维度阐释。

从认知发展规律来看,小学生正处于逻辑思维形成关键期,认知结构更具可塑性,对游戏化、具象化的编程工具接受度更高。这类工具通过模块化指令和即时反馈机制有效降低了学习门槛,使学生能够快速建立算法逻辑与问题分解能力。同时,小学阶段课程压力较小,编程教育常以校本课程形式与数学、科学等学科深度融合,从而产生更高的效应量。

相较之下,中学阶段虽具备更强的抽象推理能力,但文本编程语言的复杂性显著增加了认知负荷。中学生因调试失败产生的挫败感可能导致兴趣回落,编程学习兴趣维持率显著低于小学。此外,中学编程课程常因升学压力被边缘化为选修课,课程碎片化问题突出。教学策略方面,小学教师更倾向采用游戏化机制激发内在动机,而中学教学往往偏重理论灌输,缺乏情境化设计。社会文化环境方面,家庭与学校对编程教育的支持力度随学段升高呈递减趋势,中学阶段编程常被视为“非核心学科”,课时与师资投入受限。评估体系的倾向性加剧了差异——现有研究多通过标准化测试量化认知成果,而情感态度类指标因缺乏长期追踪工具,难以全面反映中学阶段非认知层面的动态变化。

2. 实验周期对编程教育效果的调节作用

从表3可知,短期(0-5周)效应量为0.424,高于中期(5-10周)的0.417和长期(10周以上)的0.400,组间效应检验Chi2=104.55(p<0.001),表明不同实验周期对编程教育效果的影响存在显著差异,短期效果最为突出。

短期效果显著的原因在于:课程的新奇性与高密度设计通过游戏化任务迅速激发学生内在动机,即时反馈机制能及时纠正逻辑偏差、巩固知识掌握;同时,标准化测评工具对即时效应的敏感性进一步放大了短期优势。而长期效果衰减则源于多重因素:随着周期延长,外部干扰增多,知识复杂度递增带来认知负荷累积,学生因调试失败产生的挫败感可能削弱学习动力;加之课程连贯性不足、师资专业化水平参差不齐,导致效应量趋于平稳。

值得注意的是,教学策略的动态调整对效果差异具有调节作用:短期课程依赖游戏化机制维持高参与度,长期课程则需通过渐进式内容设计与多元化评估体系来平衡认知与非认知目标。例如,采用不插电编程的中学课堂,算法思维训练效应量可达0.58,接近小学阶段短期效果,说明工具适配性与教学支持对维持长期效果至关重要。

3.研究质量对编程教育效果的调节作用

研究质量对编程教育效果具有显著调节作用。本研究发现,研究质量较低的一阶元分析呈现出较高的合并效应量,这主要源于其研究方法存在设计不严谨、数据质量低、分析方法缺陷等问题,导致效应量计算出现偏差,研究结论可靠性不足。相比之下,研究质量较高的一阶元分析虽效应量并非最高,但由于其严格遵循元分析研究标准,有效控制了样本偏差、数据处理误差等潜在人为因素干扰,研究结果更为稳定可靠。这表明,高质量研究得出的合并效应量更接近真实情况,能够为编程教育效果提供更准确的评估。

五、研究启示与建议

本研究利用二阶元分析方法对364项实验与准实验进行综合分析,得出编程教育对K-12学生学习效果具有中等程度的积极影响,证实了其能够提升教与学效果的重要作用。基于此,在实际教学过程中应充分发挥编程教育的逻辑建构性、跨学科整合性与实践交互性等核心优势,通过课程嵌入、项目设计与评价体系重构,拓展编程教育在数学建模、科学探究、艺术创作等学科的深度应用场景,使其促进学生的计算思维与问题解决能力发展的赋能效应覆盖更广泛的知识领域。本研究分析的论文源自国内国际期刊,涉及的研究对象覆盖全球不同国家与地区的学生,广泛的样本分布确保了研究结论的普适性。因此,为了能在实际教学应用中更好地促进编程教育教学效果的提升,根据研究结果,本研究提炼出关于编程教育在教育环境中应用的关键启示。

(一)分层适配编程工具以契合学生认知发展阶段

本研究建议根据学习者特征和教学内容合理选用编程工具,根据皮亚杰认知发展阶段论,小学生处于具体运算阶段,需借助具体事物进行思维,更适合图形化编程工具与游戏化任务,以降低认知负荷、快速建立编程概念;中学生进入形式运算阶段,抽象逻辑思维占优,辩证思维发展,适合文本编程与项目式学习,如通过Python数据分析、物联网控制等真实问题项目强化抽象思维训练。同时,中小学选型编程工具还需综合考虑地区教育水平、师资现状、经费投入等现实条件,确保工具适配性与教学可行性。

(二)寻找编程对学生个体发展促进作用持续性的平衡点

实验周期差异检验表明,编程教育对儿童发展的促进作用随周期延长呈递减趋势:短期效果最为显著,中期与长期效应量逐渐降低,反映出编程教育效果持续性不足的问题。编程本质上是一个试误过程,随着学习深入和知识复杂度提升,学生易产生倦怠心理,导致效果衰减。因此,需从两方面强化持续性支持:一方面,教师应给予积极鼓励与情感支持,维持学生学习动力;另一方面,通过设计个性化、多样化的趣味教学活动,动态调整认知负荷与动机水平,寻求学习时长与发展效果的最佳平衡点,以实现编程教育效果的最大化与持久化。

(三)保障政策支持与资源分配的公平性以普及编程教育

国家《AI赋能教育数字化转型方案》明确提出到2035年将AI深度融入大中小学课程体系,构建智能化教学生态。在区域资源配置方面,中央与地方财政对边远贫困地区实施专项经费投入及教师生活补助,可显著提升当地编程教育质量。UNESCO与CODEMAO合作的青少年编程倡议第二期于2024年在华启动,为偏远地区提供国际化培训与在线资源,示范了公私合作模式下的优质教育资源共享。在顶层设计方面,建议制定全国中小学生编程教育中长期发展规划,逐步将编程纳入学业水平考试及中高考体系,统一课程标准与教材以缩小城乡差异。上海市在学区建设中已通过数字技术实现跨校优质编程课程常态化共享。然而,农村及低线城市硬件设施与教师培训仍待加强,需通过专项资金和持续性培训机制保障资源落地。在智慧教育基础设施方面,建议借鉴北邮“码上”智能编程教学平台等大模型赋能案例,依托国家级编程教育云平台实现智能辅导与多端资源访问,同时推广科大讯飞iFlyCode等AI编程助手,利用智能纠错与差异化辅导功能减轻教师负担、提升学生效率。

(四)构建多元动态的编程学习测评体系

K-12编程教育需突破传统静态评估模式,转向多元化、动态化的整合性评价框架。传统标准化测试虽能有效衡量认知层面的显性成果,却难以捕捉元认知策略调整、情感态度演变等高阶能力发展轨迹。因此,认知与非认知指标并重成为优化方向:在保留编程任务得分等量化指标基础上,可引入行为日志分析(如代码调试路径、协作频次)与情感追踪技术,捕捉学生从“试错调试”到“系统性优化”的思维跃迁过程,以及挫折耐受度、协作意愿等非认知能力的动态变化。

为实现测评动态化,需构建适应性学习支持系统,整合学业大数据与实时反馈机制,生成定制化学习建议。例如,小码王ACGO平台通过分析学生调试代码时的循环结构使用偏好,自动推送阶梯式微课,使算法设计效率较传统教学组提升40%。同时,阶梯式赛事设计可结合动态测评结果调整任务难度:初级任务侧重逻辑完整性,进阶任务强调算法效率与创新性,形成“挑战—反馈—改进”的良性循环,持续激励学生。

综上所述,编程教育的成功实施需构建“课程分层—技术赋能—政策保障—动态测评”四位一体的生态体系。四要素深度融合并形成闭环,方能为新时代中国编程教育生态提供坚实支撑,为培养面向未来的创新型数字人才奠定基础。

参考文献:

  1. [1] 中华人民共和国教育部.教育部关于印发《教育信息化2.0行动计划》的通知[EB/OL].(2018-04-18)[2024-12-24]. http://www.moe.gov.cn/srcsite/A16/s3342/201804/t20180425_334188.html
  2. [2] 中华人民共和国教育部.教育部关于印发义务教育课程方案和课程标准(2022年版)的通知[EB/OL].(2022-03-25)[2024-12-24]. https://www.gov.cn/zhengce/zhengceku/2022-04/21/content_5686535.html
  3. [3] 郁晓华,肖敏,王美玲,等.基于可视化编程的计算思维培养模式研究[J].远程教育杂志,2017,35(06):12-20.
  4. [4] 房敏,曾鹏轩.可视化编程教育成效几何?[J].上海教育科研,2020(01):69-73.
  5. [5] Schmidt F L, Oh I S. Methods for second-order meta-analysis and illustrative applications[J].Organizational Behavior and Human Decision Processes,2013(02):204-218.
  6. [6] 董艳,吴佳明,郑娅峰,等.编程教学对青少年高阶思维技能发展的有效性研究[J].数字教育,2022,8(05):1-9.
  7. [7] 陈鹏,王晓,杨姝,等.可视化编程能有效促进K12学生的发展吗[J].现代远程教育研究,2023,35(04):102-112.
  8. [8] 韩雪婧,汪基德,王孝培.编程教育对中小学生学习效果的影响[J].数字教育,2022,8(06):56-62.
  9. [9] 孙立会,胡琳琳.编程真的能促进儿童的个体发展吗?[J].华东师范大学学报(教育科学版),2021,39(11):45-58.
  10. [10] 孙丹,李艳.国内外青少年编程教育的发展现状、研究热点及启示——兼论智能时代我国编程教育的实施策略[J].远程教育杂志,2019,37(03):47-60.
  11. [11] Steinberg L. Cognitive and emotional development in adolescence[J]. Annual Review of Psychology,2005(56):1-26.
  12. [12] Young J. Technology-enhanced mathematics instruction: A second-order meta-analysis of30 years of research[J].Educational Research Review,2017,22:19-33.
  13. [13]赵笃庆,沈超,余亮.基于二阶元分析的教育游戏对学生学习效果的影响研究[J].现代教育技术,2022,32(10):43-52.
  14. [14] Ioannidis J P A. How to make more published research true[J]. Revista Cubana de Información en Ciencias de la Salud,2015(02):187-200.
联系我们
人工客服,稿件咨询
投稿
扫码添加微信
客服
置顶