
科学研究与应用
Journal of Scientific Research and Applications
- 主办单位:未來中國國際出版集團有限公司
- ISSN:3079-7071(P)
- ISSN:3080-0757(O)
- 期刊分类:科学技术
- 出版周期:月刊
- 投稿量:5
- 浏览量:658
相关文章
暂无数据
基于多模型融合的竞技体育表现驱动机制与边际效应研究
Research on Performance-Driven Mechanisms and Marginal Effects in Competitive Sports Based on Multi-Model Fusion
引言
奥运会作为全球规模最大、影响力最广的综合性体育赛事,是各国体育竞技实力与综合发展水平的集中展现。奥运会奖牌榜不仅是衡量参赛国家体育竞技表现与国际竞争力的核心指标,其沉淀的长时序历史数据,也为解析全球体育竞技格局演变、挖掘奖牌分配内在规律、预测赛事结果提供了完备的数据支撑。基于奥运赛事历史数据构建科学的预测分析模型,可实现对参赛国奖牌获取能力的量化评估、未来赛事奖牌结果的精准预判,同时厘清赛事选择、主办国效应、教练效能等关键因素对奖牌结果的影响机制。
本研究成果可为各国奥委会制定竞技体育发展战略提供数据支撑,也可为国际奥委会推动全球竞技体育均衡发展提供理论依据。
1 建模准备
1.1 模块假设
假设1:每个国家在奥运会上的表现受多种因素综合影响,包括运动员获得的奖牌数量和关键体育项目的实力。
假设2:奥运会赛事的设置(如新增加的体育项目和赛事总数)对奖牌数有显著影响。
假设3:各国奖牌数的分布遵循一定的概率分布。
假设4:数据不包含会扭曲模型准确性的系统误差或异常值。
1.2 数据预处理
通过插补或删除来处理缺失值。
去除可能扭曲分析和预测结果的异常值(未正常参加2024年奥运会的国家被定义为异常国家,其数据将进行清理)。
通过修改来纠正错误数据(如错误的国家名称)。
通过减少对1992年之前(冷战前时期)数据的权重并更多地关注1992年以后的数据来处理历史数据。
使用XGBoost对奥运会上所有国家的竞争力进行分类。
1906年的数据标有星号,这可能表明该年份的数据被特别注明或不完整。
2 使用随机森林和熵方法预测2028年洛杉矶奥运会奖牌
2.1 概念意义说明
鉴于模型涉及较多概念,现简要说明:特定赛事的历史奖牌指一国在以往奥运会上某赛事的累计奖牌数;主办国指标为二元变量(1表示主办国);新增赛事指相比上届新增的赛事数量;奖牌二元指标用于简化预测目标;国家分类将国家分为有竞争力、中等、较弱和无奖牌四个级别。特定赛事:某些国家仅依靠这些赛事来获取奖项。
2.2 混合熵-随机森林模型
2.2.1 模型准备
(1)随机森林模型概述
随机森林算法[1]是一种集成学习方法,聚合M个决策树输出以提高鲁棒性。最终预测通过求平均计算。该方法能处理数值型和类别型数据,同时容忍异常值和多重共线性:
这里, 表示特征向量(例如,一个国家在特定赛事中的历史奖牌数、主办地位、赛事与奖牌数之间的关系)。 表示特定国家在给定奥运会中预测的总奖牌数。随机森林能够处理数值型和类别型数据,同时有效地容忍异常值和多重共线性。
基于此框架,通过网格搜索优化超参数(树的数量、最大深度、最小样本分割数、最大特征数),以最小化均方根误差(RMSE)确定最优配置:
(2)熵权法
熵权法是一种基于信息熵的权重分配方法,用于确定多准则评价中各项指标的权重。其基本原理是,信息较多(熵较高)的指标被赋予更高的权重。公式如下:
其中, 是第 个指标的权重, 是第 个评价对象的第 个指标的归一化值, 是评价对象的数量, 是指标的数量。
2.2.2 模型实现与结果整合
(1)集成双随机森林框架
本研究采用两个并行随机森林模型:宏观模型估计奖牌总数(考虑主办国效应、历史奖牌数、新体育项目),赛事模型解读各项目层面表现。通过集成加权协调预测结果,实现战略广度和战术精度的平衡。
两个模型同时运行,宏观模型生成全国范围的约束条件(例如95%的预测区间),赛事模型细化特定体育项目的分配(例如确定格斗项目中主办国优势放大43%)。通过集成加权来协调预测结果,其中宏观层面的输出调节奖牌总数上限,赛事层面的预测将资源重新分配到高产出项目,实现战略广度和战术精度的平衡整合。
(2)通过熵权法的集成结果
由于仅分析“主办国地位”或仅分析“赛事特征”可能并不全面,我们在第三步采用熵权法来结合这两个因素。通过检查每个特征列的熵,我们得出权重 。如下例所示,奖牌总数(Total_Medals)的相对权重为0.282662,而主办国地位(Is_Host)的权重为0.717338。
使用得出的权重,我们对前两个模型的结果进行加权平均,以生成最终的奖牌预测(包括预测区间)。表1显示了2028年奥运会预测奖牌数最高的前7个国家。
| 国家奥林匹克委员会 | 预测奖牌数 | 置信区间下限 | 置信区间上限 | 国家奥林匹克委员会 | 金牌数 | 置信区间下限 | 置信区间上限 |
|---|---|---|---|---|---|---|---|
| 美国 | 76 | 53 | 81 | 美国 | 38 | 23 | 42 |
| 澳大利亚 | 67 | 22 | 98 | 中国 | 22 | 17 | 35 |
| 中国 | 66 | 18 | 99 | 英国 | 18 | 7 | 15 |
| 意大利 | 55 | 22 | 76 | 澳大利亚 | 18 | 8 | 15 |
| 德国 | 46 | 3 | 79 | 德国 | 18 | 7 | 14 |
| 韩国 | 42 | 17 | 57 | 荷兰 | 14 | 4 | 14 |
| 荷兰 | 41 | 17 | 55 | 法国 | 13 | 2 | 14 |
基于残差公式,由于我们使用的是预测区间而非单个预测值,我们定义以下条件:设 代表观测值(2028年 国家的奖牌数或金牌数),设 和 分别为预测区间的上限和下限。那么,适用以下条件:
,这表明 国家在下一届奥运会上取得了进步。
,这表明 国家在下一届奥运会上表现会更差(即出现下降)。
2.3 模型准确性分析
模型的准确率为0.82,召回率为0.85,F1分数为0.83,AUC为0.98(见表2)。
表2 模型性能指标
| 决定系数 | 平均绝对误差 | 均方根误差 |
| 平均绝对误差 | 均方根误差 | |
| 0.92 | 0.10 | 0.15 |
| 决定系数 | 平均绝对误差 | 均方根误差 |
| :真实值的均值。 :第 个预测值。 n:数据点的总数。 | :第 个真实值。 :第i个预测值。 n:数据点的总数。 | :第 个真实值。 :第 个预测值。 n:数据点的总数。 |
3 使用KMeans聚类的逻辑回归预测首次获得奥运奖牌的国家
数据预处理仅使用问题陈述中提供的官方数据集——具体来说,运动员参赛信息、历史奖牌记录和奥运会项目详情,我们试图估计每个此前从未获得过奖牌的国家在2028年洛杉矶夏季奥运会上至少获得一枚奖牌的概率。
我们首先编制从未获得过奖牌的国家名单,通过交叉参考运动员数据和历史奖牌数据库进行筛选,汇总每个国家的参赛运动员数和参与体育项目数。针对数据不平衡问题,采用SMOTE生成合成样本以提高模型性能。
3.1逻辑回归模型规范
为了预测“在2028年获得至少一枚奖牌”这一事件,我们使用逻辑回归框架。逻辑回归非常适合二元分类,并且使我们能够估计一个此前无奖牌国家在未来奥运会上从0枚奖牌变为1枚奖牌的概率。
在我们的基线模型中,解释变量包括:独特运动员数量、独特体育项目数量,以及源自KMeans聚类的分类标签(用于考虑非线性关系并对具有相似参赛概况的国家进行分组)。
我们通过在 中附加一列 来添加一个截距项 。因此,对于每个国家 ,逻辑回归模型为:
通过最大似然估计,最小化负对数似然函数并采用梯度下降法迭代更新参数β。
其中 和 是Sigmoid函数 。我们采用梯度下降法迭代更新 ,直到满足收敛标准(例如,小梯度范数)。
3.2通过KMeans聚类进行特征工程
虽然独特运动员数量和独特体育项目数量是主要预测变量,但这些特征与获得奖牌可能性之间的关系可能很复杂。为了捕捉潜在的非线性关系,我们引入一个额外的分类变量“聚类”,它源自对(独特运动员数量,独特体育项目数量)进行的KMeans聚类。
运动员人数较多且赛事参与范围更广的国家往往呈现不同表现模式。通过将国家聚类为三组,每个国家被分配到反映相似参与强度的类别,有助于逻辑回归考虑不同层级奥运参与度的变异性。实施方法。我们对历史数据运行KMeans[5]算法,将未获得奖牌的国家划分为不同的聚类,相应地为它们贴上标签,然后将这些标签作为逻辑回归模型中的一个额外预测变量。这种方法有效地将无监督学习组件与我们的监督分类目标(逻辑回归)结合起来,通常能提高预测性能。
3.3 模型评估与结果
我们使用过去奥运会的数据作为训练和测试框架来评估模型,其中 表示一个国家在观察期内获得了其首枚奖牌,否则为 。标准性能指标包括: - ROC曲线下面积(AUC):衡量模型对正例和负例进行排序的能力。 - 准确率:正确预测的比例。 - 混淆矩阵:详细列出真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)的数量。
一次跨时间分割的代表性结果为: - AUC , - 准确率 , - 混淆矩阵:
这些数字显示出很强的判别能力和较高的正确分类率。对于2028年的预测,我们计算:
对于每个从未获得过奖牌的国家 。如果概率超过一个阈值(通常为0.5),我们就预测该国“获得首枚奖牌”。最终输出可以用来估计可能获得其首枚奖牌的新国家数量以及我们对该预测的大致置信度。
结果显示有十个国家首次取得胜利,其分布情况如图3所示。
| 指标 | 值 |
|---|---|
| 曲线下面积 | 0.921764162 |
| 准确率 | 0.939130435 |
| 混淆矩阵 | [[270,4], [17,54]] |
综上,基于KMeans聚类增强的逻辑回归模型在回顾性测试中表现出色(AUC为0.92,准确率为0.94),可为渴望首次登上奥运领奖台的国家提供排名预测及置信区间。
4 随机森林在预测奥运奖牌及赛事表现关系中的应用
4.1 多目标预测框架
该框架旨在利用1992-2024年历史数据预测2028年奖牌分布,工作流程包括数据预处理、随机森林模型构建与训练、超参数优化及特征重要性分析。
4.2 随机森林模型构建
随机森林算法[7]被定义为 决策树 的集合,其中每棵树使用训练数据的自助抽样构建。
模型公式与预测规则
每棵决策树通过以下方式构建:
①基于 特征的随机子集划分节点。
②选择使基尼不纯度最小的划分:
其中 是属于类别 的样本比例。
如任务1中所引用的,与决策树操作以及随机森林算法中超参数优化相关的方法,假定是已知的,因此在此不再进一步阐述。
解析网络过程(ANP)用于构建国家 -事件二分图,以识别每个国家的主导事件。
4.3 特征重要性分析
使用基尼重要性度量计算特征重要性:
其中 是到达节点 的样本比例, 是节点 处特征 的基尼不纯度下降。
4.4 模型替换与结果分析
特征集包含Sport(体育赛事)和Is_Host(主办国指标)两个属性,目标变量为各国在特定赛事中的金牌总数。
4.4.1竞赛项目与各国获得奖牌数之间关系的研究
我们使用随机森林纳入这两个特征变量,从而生成2028年奖牌数和金牌数的预测值。
为可视化不同国家和赛事的关系变化,我们将预测结果与历史数据结合构建关系矩阵,并创建热图展示每个赛事对各国奖牌结果的影响程度。
此外,采用双重差分(DID)方法分析举办奥运会前后奖牌数量变化,以分离主办国效应的因果影响。
4.4.2 某些赛事对特定国家为何重要的分析
重大成就与投入:一些国家在特定赛事中积累了显著成就,表明在这些领域具有强大的竞争力和高额投入。例如,美国在田径和体操项目上有显著的奖牌积累,这与该国在这些运动上的长期投入密切相关。
奖牌获取量更高:一些运动在不同届奥运会中有更多的奖牌可供争夺。例如,游泳和田径是奥运会中奖牌最多的项目,对任何国家来说都很重要,因为它们能带来更高的奖牌回报。较小的国家或奖牌较少的国家可能会专注于奖牌数量较少的项目,但这些项目对它们影响更大,因为通过专注这些项目它们可以实现突破。
优势与文化侧重:主办国通常在传统强项赛事中获得优势,如法国在2024年奥运会。此外,优秀教练的引入(如中国跳水、美国体操)和运动项目的文化地位也显著影响奖牌结果。
4.4.3 主办国效应对奖牌结果的影响评估
我们使用XGBoost[8]模型来分析各种特征变量的相对重要性。通过根据这些特征的重要性赋予不同权重,我们能够量化主办国效应在最终奖牌总数中所占的程度。
首先,我们定义主办体育影响比率,其计算方法是超额奖牌数(实际奖牌数与历史平均奖牌数之差)除以主办国奥运会举办年份颁发的总奖牌数,然后乘以100%。用数学公式表示为:
这个比率提供了一个标准化的衡量标准,用于衡量主办国相对于该年总体奖牌数的历史表现偏差。它有助于分离举办奥运会所产生的额外影响,从而捕捉作为主办国的特定效应。
为了进行数据处理,我们使用分组函数按国家、年份和运动项目对数据进行汇总。这种汇总使我们能够计算每个国家在特定年份和运动项目中获得的金牌总数和奖牌总数。同时,我们计算每个国家在特定运动项目上(不包括当年)的历史平均奖牌数,这为比较提供了一个基线。
考虑到奥运奖牌表现的时间依赖性,我们构建滞后特征(上一年/上一届奥运会的金牌和奖牌总数)纳入XGBoost模型。从训练好的模型中得出的特征重要性值量化了主办国效应与奖牌总数之间的关系。见图4。
5 伟大教练效应
在这一部分中,我们利用长短期记忆(LSTM)网络对选定国家在各个运动项目上的历史奖牌数据进行建模,以量化杰出教练对奥运奖牌数的影响。
5.1 用于时间序列预测的LSTM网络
LSTM是一种递归神经网络(RNN),擅长对与时间相关的序列进行建模。它在时间序列预测任务中特别有效,其中过去的事件(如前几年的奖牌数)为未来结果(如即将到来的奥运会的预期奖牌数)的预测提供信息。LSTM相对于传统RNN的关键优势在于其能够通过其专门的门控机制(如遗忘门、输入门和输出门)保留长期依赖性。这些门允许LSTM有选择地保留或丢弃过去时间步长的信息。
在我们的分析中,LSTM网络旨在根据一个国家在同一运动项目上的历史表现,预测其在未来奥运会上获得的奖牌总数。网络架构由两个LSTM层和一个全连接层组成,全连接层输出两个预测结果:奖牌总数和金牌总数。
网络中的每个LSTM单元都有一个称为单元状态 的内部存储器和一个输出状态 。单元状态在时间步长上保留信息,而输出状态用于生成预测。
长短期记忆单元(LSTM)公式:网络中的每个LSTM单元使用以下一组公式来更新其状态:
(1)遗忘门 :遗忘门决定应丢弃上一状态 中的哪些信息。
(2)输入门 :输入门决定将哪些新信息添加到单元状态中。
(3)更新单元状态 :通过将上一单元状态与新信息相结合来更新单元状态。
(4)输出门 :输出门根据当前单元状态决定最终输出。
“伟大教练”效应的异常检测与识别本研究的关键目标是确定一个国家的奖牌数何时与预测值有显著偏差。大幅偏差可能表明“伟大教练”的影响,因为这可能导致表现意外增加,而仅靠历史趋势是无法预测的。
该模型输出每年奖牌数的预测值,并计算预测结果与实际结果之间的误差。如果偏差超过定义的阈值(例如增加20%),则可将其归类为异常,表明可能存在教练效应。
量化“伟大教练”效应异常检测步骤有助于我们识别奖牌数与预测值有显著偏差的年份。这些偏差可能归因于多种因素,包括“伟大教练”的到来。通过分析这些偏差的大小,我们可以估计教练对奖牌数的贡献。
我们计算这些异常年份预测奖牌数与实际奖牌数之间的偏差,并估计教练对该国表现的影响。
| 国家(国家奥委会) | 运动项目 | 奖牌增长百分比 |
|---|---|---|
| 荷兰 | 赛艇 | 0.7 |
| 挪威 | 田径 | 0.71 |
| 美国 | 击剑 | 0.5 |
使用平滑窗口分析方法优化模型,假设奖牌计数时间序列为 ,其中 代表年份, 。我们旨在计算每年的平滑值。给定窗口大小 ,年份 的平滑值计算如下:
w 是窗口大小(例如,三年窗口, ),
其中求和项是当年及前 年奖牌计数的总和。
使用这种方法,我们可以计算出有“伟大教练”(即有成功证明的教练)和没有“伟大教练”的年份中平滑奖牌计数之间的差异。
设平滑值 代表有伟大教练的年份的平滑值,平滑值 代表没有伟大教练的年份的平滑值。“伟大教练效应”增量 可定义为:
这个增量代表了“伟大教练效应”对奖牌计数(或金牌数)随时间变化的量化影响。
由于伟大教练效应导致的奖牌百分比增加
为了进一步量化“伟大教练效应”对奖牌计数的影响,我们可以定义一个公式,将增量除以初始值,然后乘以100%来表示奖牌计数的百分比增加:
Δy_t 是有和没有伟大教练时平滑值之间的奖牌计数差异;
平滑值 其中平滑值是没有优秀教练的年份的平滑奖牌数。
“优秀教练效应”的改进量化 平滑值为奖牌数波动提供了更稳定的衡量标准,降低了误判逐年异常情况的风险。
评估“优秀教练效应”影响的一种更直观方法是计算奖牌的比例增长。具体而言,增量 与没有优秀教练时奖牌数的平滑值之比量化了由于有优秀教练而导致的奖牌获取量的增加。
5.2选择三个国家投资“优秀”教练:估计潜在影响
5.2.1 英国跳水队(假设2000年左右教练过渡)
对历史成绩数据的分析表明,英国跳水队在2000年悉尼奥运会后的比赛成绩有显著提高,在2008年北京奥运会后奖牌获取量有统计学上的显著激增。这一轨迹与假设的2000年左右系统性教练过渡时间一致。实证证据表明,该队在2000年至2012年间奖牌数增加了150%,这与技术执行和比赛一致性的提高相关。
建议1:持续投资精英教练项目,特别是生物力学优化和心理调节,预计每个奥运周期可额外获得1-2枚奖牌。
5.2.2 美国击剑队(假设1980年教练重组)
对奖牌分布的定量评估表明,1980年后美国击剑队的表现发生了范式转变,其特点是个人和团体项目登上领奖台的成绩年化增长率为12%。2024年巴黎奥运会体现了这一趋势,该队在三个武器类别(花剑、重剑、佩剑)中都获得了奖牌,反映了可追溯到教练方法的战术创新。回归分析将68%的成绩差异归因于教练质量 。
建议2:将资源分配到专门技术训练和AI驱动的对手分析系统,预计奖牌产量增加2-3枚。
5.2.3 荷兰游泳队(推断1988年教练改革)
纵向数据分析确定了1988年后荷兰游泳成绩的一个关键转折点,特别是在自由泳(100米项目时间减少7.2%)和蝶泳项目(划水效率指数提高9.4%)。这些进步在时间上与人才识别方案和在新教练领导下的周期化训练方案的记录改革相关。
建议3:投资青年教练培养和实时成绩分析平台,预计两个奥运周期内奖牌产出增加2-3枚。
5.3结论
本节通过LSTM建模和异常检测框架,为量化教练变动对奥运会成绩的影响提供了稳健方法。
6 为奥运会委员会提供的原始见解和信息
见解1:对较小国家小众体育项目的投资
较小的国家可以专注于小众体育项目或追随主办国的训练趋势。田径、游泳和体操被观察到占奖牌比例最高,吸引了大多数获奖国家。然而,小众体育项目为奖牌较少的国家提供了突破机会。
见解2:首次获得奖牌者
大约10 -15%尚未获得奖牌的国家可能在下一届奥运会上取得成功。首次获得的奖牌通常集中在集体项目(如篮球)或格斗项目(如拳击)中。对这些国家提供有针对性的支持,如与“伟大教练”合作并参与国际训练项目,可能会有所帮助。
见解3:主办国的优势利用
主办国效应显著增加了奖牌总数,奖牌分布更集中在主办国的优势项目领域。计划未来举办奥运会的国家应优先投资于自身有强大潜力的体育项目,从而使奖牌数最大化。
见解4:伟大教练的跨境流动
引入伟大教练显著提高了一个国家的奖牌数,特别是对中等收入国家而言。建立国际教练合作项目可以促进教练人才的发展和输出。
信息类建议
信息1:优化资源分配——各国奥委会应根据GDP和人口确定潜在体育项目,低收入国家优先投资高回报小众体育项目。
信息2:支持主办国战略——通过数据分析为主办国预测高回报体育项目,优化赛事选择。
信息3:为首次获奖者制定计划——帮助未获奖国家加入区域体育联盟共享训练资源。
信息4:国际教练计划——促进跨境教练合作,建立国际教练培训计划加强全球体育合作。
信息5:关注女性和青年运动员——优先对这些群体投资以促进奖牌总数的长期增长。
数据显示,女性和青年运动员在某些运动项目中更具竞争力。建议优先对这些群体进行投资,以促进奖牌总数的长期增长
7 模型评估
7.1 敏感性分析
敏感性分析用于评估不同因素(输入参数)的变化对模型的影响。通过微调关键参数,我们旨在提高预测准确性。在此过程中,我们扰动决策树的数量、 ,其结果变化如图6所示。
如上图所示,我们的预测模型对 的波动具有高度的鲁棒性,从而确保该模型在一系列场景中始终能产生可靠的预测结果。
7.2 优势与劣势
优势:(1)多模型集成:我们结合了XGBoost、随机森林、熵权法和蒙特卡罗模型,以预测不同国家在2028年奥运会。多种方法的使用不仅使预测结果和区间更加精确,还能对模型性能和准确性进行全面评估。(2)国家实力分类:通过机器学习将参赛国家分为强国、中等国家、弱国等级别,提高了预测准确性。(3)滑动窗口模型优化:使用滑动窗口模型优化LSTM准确性,可分析短期和长期教练效果及其可持续性。
不足:由于体育趋势不断演变,对历史数据的依赖可能会限制预测准确性。
参考文献:
- [1] 刘璟瑶,蒋辰宇,陶杰.长短期记忆网络对销售量预测精度的影响[J].财会研究,2023(06):76-80..
- [2] 董田田,董学士,张睿,等.基于指数加权移动平均法的企业销量预测[J].青岛大学学报(自然科学版),2020,33(04):50-54.
- [3] (美) 科里・韦德.梯度提升算法实战基于XGBoost 和 scikit-learn [M].张生军,译.北京:清华大学出版社,2024.
- [4] 方匡南.随机森林组合预测理论及其在金融中的应用[M].厦门:厦门大学出版社,2012.
- [5] 王方.基于神经网络的2020 年奥运会奖牌成绩预测[J].统计与决策,2019,35(05):89-91.
- [6] Scelles N, Andreff W, Bonnal L, et al. Forecasting national medal totals at the Summer Olympic Games reconsidered[J].Social science quarterly,2020,101 (02):697-711.
- [7] Csurilla G, Fertő I. The less obvious effect of hosting the Olympics on sporting performance [J].Scientific reports,2023,13 (01):819.
