基于SSD的学生课堂行为研究

侯帆星; 张晓娜; 王艳玲

当前位置：首页 > 科学前沿与发展 > 基于SSD的学生课堂行为研究

科学前沿与发展

Science Frontiers Progress

主办单位:
未來中國國際出版集團有限公司
ISSN:
3080-566X（P）
ISSN:
3080-5678（O）
期刊分类:
科学技术
出版周期:
月刊
投稿量:
0
浏览量:
137

基于SSD的学生课堂行为研究

Research on Student Classroom Behavior Based on SSD

发布时间：2025-09-16

作者: 侯帆星,张晓娜,王艳玲 :邢台新能源职业学院河北邢台;

摘要: 传统课堂中，由于课堂时间有限，教师并没有足够的时间和精力清晰掌握每一位学生的课堂行为。可利用智慧教室监控设备，如单发多盒检测器（SSD），记录下学生课堂视频，结合计算机视觉技术（如视觉变换器）对学生进行人体行为识别。本文主要针对学生举手、睡觉、玩手机、写字这四种行为进行研究识别，通过对比人体姿态估计算法，借鉴自顶向下的人体姿态估计检测思路，发现该方案减少了骨架数据中的错误连接，能够辅助教师在课堂下了解学生参与课堂互动的活跃度和听课的专注度，从而进行更合理的教学管理。

Abstract: In traditional classrooms, due to limited class time, teachers often lack sufficient time and energy to clearly understand each student’s classroom behavior. By using smart classroom monitoring equipment, such as single shot multibox detector (SSD), to record students’ video data and combining it with computer vision technology (such as vision transformer), this study conducts human behavior recognition. This paper mainly focuses on the recognition of four types of student behaviors: raising hands, sleeping, using mobile phones, and writing. Through comparison of human pose estimation algorithms and by adopting a top-down human pose estimation approach, this method reduces incorrect connections in skeleton data. It helps teachers better understand students’ engagement in classroom interaction and their level of attention during lessons, thereby enabling more effective teaching management.

关键词: SSD；视觉变换器；人体姿态估计

Keywords: SSD; vision transformer; human pose estimation

引言

传统课堂中，师生互动大多都处于缺失或不足的状态，由于课堂时间相对有限，教师并没有足够的时间去分析通过哪些手段或者话语来提高学生互动的积极性，如何通过系统的数据分析来加强课堂教学中教师与学生、学生与学生之间的互动，是传统课堂中很难解决的问题。2023年11月份，以“未来学校：走向高质量的教育之路”为主题的第七届中国未来学校大会在潍坊市高新区举办召开，专家们在大会上指出未来教育是以大数据为基础，人工智能为重要手段，实现智慧课堂。在传统现阶段的课堂教学中，观察记录学生的行为主要还是依靠老师现场人为监督，或者在办公室通过班级监控视频来监督；教师不仅要通过课后作业来了解学生学习情况，还需要根据学生的课堂行为来获取反馈。这给教师带来了极大的工作量，既要兼顾所讲授内容的质量，也要监督学生的听课情况，而且教师无法每时每刻关注每个学生的上课状态，是否在认真听课。面对这些情况，计算机视觉技术可以通过监控视频提取特征，对人体行为语义进行自动分析，可以获取学生在课堂上的行为数据，这一人体行为检测技术在教学场景中具有重要意义。

1 算法研究

1.1 SSD

单发多盒检测器（Single Shot MultiBox Detector，SSD）是一个针对多个类别的单次检测器，对小目标的检测精度较高，具有较好的检测效果，可以准确识别出坐在后排离监控摄像较远的学生。SSD将卷积特征层添加到截取的基础网络末端VGG的conv4-3，这些层在尺寸上逐渐减小，并允许在多个尺度上对检测结果进行预测。用于预测检测的卷积模型对每个特征层都是不同的，目的是提取更高语义的特征。

SSD网络首先通过Conv4_3，得到第一个特征预测层，输出为38*38*512的特征矩阵。当通过该网络后，特征矩阵输出大小为19*19*512。接下来通过3*3*1024的卷积层，输出19*19*1024的特征矩阵（可以看成VGG16的第一个全连接层）。

其次通过1*1*1024的卷积层，得到第二个特征预测层，输出19*19*1024的特征矩阵（可以看成VGG16的第二个全连接层）。

最后通过三层1*1*256和3*3*512（这个卷积层的步距为2）的卷积层，分别得到第三个、第四个、第五个、第六个特征预测层，最终在第六个特征层，输出1*1*256的特征矩阵。

通过上述过程，则得到了SSD的6个特征层，可以在这6个预测层，分别预测不同大小的目标。

1.2 hrnet

图1 hrnet网络结构。hrnet网络在整个过程中一直保持着高分辨率的表征，但存在感受野不够大的问题。因此hrnet网络采用渐进地增加高分辨率到低分辨率表征的子网的方式来获取更多全局信息。通过特征融合模块把高分辨率表征信息和低分辨率表征信息进行交换，同时把低分辨率表征信息来增强高分辨率表征的学习；同时高分辨率表征专注于局部信息的特征用于增强全局的低分辨率表征的学习。第一路是高分辨率，第二路分辨率降低了一半，同时相应的宽度增加一倍，第三路相比于第二路的分辨率又降低一半，hrnet网络由这三路并行的高分辨率网络和低分辨率网络组成，并且在多分辨率网络之间进行多尺度融合，hrnet网络对关键点预测的效果明显提高。

1.3 Vision Transformer

在图像分类中基于卷积的方法虽然已经占据主流地位很久了，但是它也有自己的局限性，如卷积算子较小的感受野限制了长距离建模能力，而transformer中的自我注意机制拓宽了感受野，可以提高视频识别的性能。Transformer虽然是作为自然语言处理任务的经典算法，但目前也经常被用于计算机视觉领域。视觉变换器（vision transformer，VIT）模型的提出在图像分类领域中获得比卷积网络模型更好的表现。

在自然语言处理任务中，transformer有编码端（左半部分）和解码端（右半部分）两个组成部分，编码端输入字符inputs，转换成对应数字之后，比如汉字转换为数字，数字转换为token embedding，然后和对应的positional encoding相加促成最终的input embedding，然后输入流进到注意力机制层，再到前馈神经网络，Nx就是代表前半部分编码端中的自注意力机制和前馈神经网络是堆叠起来的N个，再输出。对于解码端是同样的。

VIT的结构模型借鉴了transformer左半部分的编码端，将二维图片转化成transformer可以处理的序列数据。若将224x224图片上每个像素的像素点作为一个token，整个token大小为224x224=50176，参数量非常大。于是在这一过程中引入了像素块patch的概念，把整幅图片切分为patch。也就是说原来是一个像素点代表一个token，现在把一整块的像素点作为一个token。将图片切分为patch后，转化为embedding，将位置embedding和token embedding相加输入transformer encoder模型中，经过MLP输出。

2 实验与分析

本实验参数设置如下：Batch size设置为 8，迭代次数设置为 50，初始学习率（learning rate）设置为 0.001。经过6次训练后，学习率的下限设置为 0.00001。

学生行为图像的数量共有20383张，将其按照 5:1 的比例随机分成训练集和测试集，经过在 ViT网络中训练得到学生课堂行为识别的分类模型，然后用测试集进行测试。通过网络的训练，得出当进行第50次训练后，损失函数变化处于稳定状态，模型的识别精确率达到87.6%。具体的实验结果如下表1所示。

表1 不同模型的识别精度

	Params	mAP
SSD+hrnet+VIT	321.2M	88.3%
SSD+hrnet+resnet	388.3M	89.1%
SSD-M3-SFP+Hrnet-In+VIT（本文）	100M	88.6%

由表1实验结果，与当前典型卷积神经网络resnet比较，发现虽然不如卷积神经网络resnet，是由于本文数据集不够庞大的原因，若后续继续扩充数据集其精确度会超越resnet。本文改进过后的算法虽然在精确度上增加0.3个百分点，但是在参数量上大大降低，满足了实时性检测需求。

3 结语

学生课堂行为检测对老师掌握教学进度、了解学生上课状态有很大的帮助，随着计算机视觉的发展，本文提出的将人体目标检测与姿态估计相结合的行为检测算法，减少了骨架数据中错误连接的概率，并且通过NPU加速减少推理时间，从而可以准确、实时的识别出学生的课堂行为。

参考文献：

[1] 赵斌,刘霏霏,张瀚文.随班就读教师课堂管理效能感研究[J].现代特殊教育,2025(12):29-39.
[2] 刘卫江.人工智能视域下的课堂教学行为分析模型与实践研究[J].广播电视网络,2025,32(05):51-54.
[3] 曹燚,曹倩,钱承山,等.改进YOLO11的高精度课堂行为检测算法[J].计算机科学与索,2025,19(08):2135-2148.
[4] 张勇.基于YOLOv5迁移学习的学生课堂行为识别方案[J].电脑知识与技术,2025,21(12):34-36.
[5] 胡敏,张伟,姜念祖,等.基于YOLOv8n的学生课堂行为检测算法[J].白城师范学院学报,2025,39(02):42-50+128.
[6] 赵双红.农村小学生课堂不良学习行为习惯分析及对[J].河南教育(教师教育),2025(04):44-45.
[7] 豆文祥,张峰,张士文,等.基于嵌入式设备的课堂学生行为检测算法[J].电气自动化,2025,47(02):101-103+107.
[8] 李永生,岳凤杰,何耀琴.学校教师课堂教学观测与评估模型建构及其理论基础与技术分析[J].北京经济管理职业学院学报,2025,40(01):37-48.
[9] 陈丽英,潘建华.重要他人对大学生参与翻转课堂行为的影响——学习期待的中介效应[J].西部素质教育,2025,11(05):26-30+36.
[10] 张小妮,杨萌萌,张军锋,等.基于改进YOLOv7算法的学生课堂行为识别研究[J].现代信息科技,2025,9(04):69-73.
[11] 夏钰馨.基于学生课堂行为识别的行为轨迹系统设计[J].中国信息化,2025(02):53-55.
[12] 张蓓佳,叶凤云.行为改变轮理论视角下的高校翻转课堂模式优化研究[J].遵义师范学院学报,2025,27(01):130-133.
[13] 王芳.创新课堂互动：高校计算机实践课堂管理智能化方案[J].电脑知识与技术,2025,21(02):156-160.
[14] 杨金幸,王继东.基于计算机视觉的学生课堂行为识别研究综述[J].电子元器件与信息技术,2025,9(03):244-248.
[15] 薛芳.计算机视觉在多媒体教学课堂学习行为分析中的技术实践[J].信息系统工程,2024(12):47-50.
[16] 薛涛,曹哲睿,周千明.用于课堂行为识别的轻量化姿态估计网络研究[J].西安工程大学学报,2024,38(06):124-134.

科学前沿与发展

Science Frontiers Progress

相关文章

基于SSD的学生课堂行为研究

Research on Student Classroom Behavior Based on SSD

引言

1 算法研究

1.1 SSD

1.2 hrnet

1.3 Vision Transformer

2 实验与分析

3 结语

参考文献：