基于机器学习的电影票房预测与特征重要性分析

周文变

当前位置：首页 > 新经济研究 > 基于机器学习的电影票房预测与特征重要性分析

新经济研究

Journal of New Economic Studies

主办单位:
未來中國國際出版集團有限公司
ISSN:
3079-3416（P）
ISSN:
3079-9589（O）
期刊分类:
经济管理
出版周期:
月刊
投稿量:
2
浏览量:
382

基于机器学习的电影票房预测与特征重要性分析

Machine Learning-Based Movie Box Office Prediction and Feature Importance Analysis

发布时间：2026-04-24

作者: 周文变 :重庆移通学院重庆;

摘要: 本文针对电影市场对科学决策的需求，构建基于机器学习的票房预测模型。研究采用Kaggle电影数据，提取制作预算、营销预算、明星影响力、影片类型、是否为续集等多元特征，使用线性回归、随机森林与XGBoost三种模型进行预测对比。结果表明，XGBoost模型表现最佳（R²=0.9935，RMSE=258.11），显著优于线性回归；特征重要性分析显示，制作预算与营销预算为核心影响因素，续集属性、影片类型及明星影响力次之。研究验证了机器学习在非线性、多因素票房预测中的有效性，为电影投资与市场策略提供量化支持。

Abstract: In response to the demand for scientific decision-making in the film market, this study constructs a box office prediction model based on machine learning. Using Kaggle movie data, it extracts diverse features such as production budget, marketing budget, star influence, film genre, and whether the film is a sequel. Three models—linear regression, random forest, and XGBoost—are employed for predictive comparison. The results indicate that the XGBoost model performs best (R²=0.9935, RMSE=258.11), significantly outperforming linear regression. Feature importance analysis reveals that production budget and marketing budget are the core influencing factors, followed by sequel attributes, film genre, and star influence. The study validates the effectiveness of machine learning in nonlinear, multifactorial box office prediction, providing quantitative support for film investment and market strategy.

关键词: 机器学习；电影票房预测；特征重要性

Keywords: machine learning movie box office forecast; feature importance

引言

2025年，全球电影市场持续回暖，全年票房总额超335亿美元，不过其市场体量仍未回升至新冠疫情前的平均水准。与此同时，我国电影市场展现出强劲的发展活力，年度票房达518.32亿元，同比增长21.95%。在此背景下，实现对电影票房的精准预测，已成为影视行业科学决策的重要前提。同时系统解析影响电影票房表现的关键特征，更能为影视领域投资者制定合理策略提供核心参考。

一、文献综述与研究内容

（一）文献综述

早期电影票房预测多依赖回归分析、时间序列等传统统计方法，核心是通过线性或简单非线性关系拟合票房与影响因素的关联。但此类方法对复杂非线性数据适配性差，难以捕捉口碑、档期等多因素的交互作用，预测精度与泛化能力有限，逐渐难以满足行业精细化需求，机器学习方法由此成为研究主流。

目前，众多学者基于机器学习方法对电影票房的预测有了丰富的成果。查淳基于复杂网络与BP神经网络构建了华莱坞电影票房预测模型，选取出品人、导演、主演影响力，以及电影想看人数、豆瓣评分、上映档期与类型共12个指标，利用2017-2022年华莱坞电影票房数据进行训练。该模型经2023年上映的20部电影数据检验，预测准确率达到70%，验证了其在华莱坞电影票房预测中的有效性。胡鹏星基于随机森林算法构建了中国电影票房预测模型，从创意、营销、上映发行三方面选取抖音累计话题播放量、猫眼物料播放量、首周票房等19个指标，利用2022-2023年546部电影数据进行训练。模型调优后R²达0.86，经2024年电影数据验证预测误差较小，验证了随机森林在票房预测中的有效性。陈潇潇构建了基于机器学习的电影票房预测模型，研究选取电影类型、导演、演员、首映日票房等14个上映前影响因素，使用豆瓣网数据进行训练，加权Stacking模型准确率达86.62%，CNN模型达89.17%。研究验证了深度学习与集成学习方法在票房预测中的有效性，并开发了配套预测系统以实现应用落地。宋玉萍等构建了基于最优子集回归与随机森林回归的首周票房预测模型，选取导演与主演评分、电影评分、上映前票房等17个变量，采用2015—2019年国产电影数据。研究表明，随机森林回归预测效果更优（测试集MSE为0.8733），显著影响票房的因素包括导演与主演知名度、上映前票房、档期及电影类型，其中喜剧类电影表现突出，为电影市场决策提供了数据支持。

（二）研究内容

本文围绕电影票房预测问题，构建了基于机器学习的研究技术路线。首先对电影数据进行整理与预处理，包括缺失值处理、异常值分析以及类别特征编码；其次对电影制作、主创、市场与口碑等特征进行统计分析，以明确其与票房之间的关系；在此基础上，选取多种机器学习回归模型构建电影票房预测模型，并通过多种评价指标对模型预测性能进行对比分析；最后，基于最优模型开展特征重要性分析，探讨影响电影票房的关键因素，为电影投资与市场决策提供参考。

二、数据说明与预处理

（一）数据来源与样本描述

本文所使用的数据来源于kaggle网站，数据内容涵盖电影制作、主创阵容、市场营销及上映表现等多个维度，能够较为全面地反映影响电影票房的主要因素。数据集中以单部电影为一个样本，记录了电影在上映前及上映期间可获取的相关信息，具有较强的现实参考价值和研究意义。

在样本规模方面，数据集共包含若干部电影样本（具体数量以实际数据为准），样本类型涵盖不同电影题材、制作规模和市场定位，既包括高预算商业电影，也包含中低成本影片，整体分布较为均衡，有助于提高研究结论的普适性。

从时间维度看，样本覆盖多个上映年份（或上映周期），能够反映不同时期电影市场的基本特征与变化趋势。为保证研究的有效性，本文在数据使用过程中剔除了关键信息缺失较多或明显异常的样本，最终形成用于实证分析的有效数据集，为后续模型构建与预测分析提供可靠基础。

（二）变量选取与定义

为实现对电影票房的精确预测，本文在综合已有研究成果和数据可获得性的基础上，选取电影总票房作为研究的因变量。考虑到电影票房数据通常呈现明显的右偏分布特征，且不同电影之间票房差异较大，本文对总票房变量进行对数变换处理，以减弱极端值对模型估计结果的影响，提高模型的稳定性与预测精度。

自变量主要从电影制作、主创阵容、市场因素和内容特征等方面进行选取。具体包括制作预算、营销预算、影片片长等反映电影投入规模的变量；导演影响力、主演明星影响力等反映主创阵容的变量；上映月份、是否为续集、电影评级等市场与发行相关变量；以及电影类型、上映前评分等内容与口碑特征变量。

在变量统计特征方面，不同变量在数值范围和分布形态上存在一定差异，其中预算类和票房类变量波动较大，而部分类别变量则呈现明显的离散分布特征。总体来看，各变量能够从不同角度刻画电影的综合属性，为构建票房预测模型提供多维度的信息支持。

（三）数据预处理方法

为保证模型构建的有效性和预测结果的可靠性，本文在实证分析前对原始数据进行了系统的数据预处理。首先，在缺失值处理方面，对于缺失比例较小的数值型变量，采用均值或中位数填补的方法进行处理；对于缺失比例较高且难以合理估计的样本，则予以剔除，以避免对模型结果产生干扰。

其次，在异常值处理方面，针对票房、制作预算和营销预算等易出现极端值的变量，结合箱线图和统计分位数方法对异常值进行检测。对明显偏离正常范围的样本进行合理修正或删除，以降低异常数据对模型训练过程的影响。

在分类变量处理方面，本文对电影类型、评级以及是否续集等类别特征采用哑变量（One-Hot Encoding）方式进行编码，使其能够被机器学习模型有效识别和利用。最后，在数据标准化处理方面，对部分数值型特征进行标准化操作，以消除不同量纲带来的影响，提升模型训练的稳定性和预测性能。

三、研究方法

（一）机器学习模型原理

为提高电影票房预测的准确性和稳健性，本文选取线性回归模型、随机森林回归模型以及XGBoost模型作为研究方法，对不同模型在电影票房预测问题中的应用效果进行对比分析。

线性回归模型是回归分析中应用最为广泛的基础模型，其基本思想是假设因变量与多个自变量之间存在线性关系。在线性回归模型中，电影票房作为预测目标变量，各影响因素作为解释变量，通过线性函数对变量之间的关系进行建模。模型参数通常采用最小二乘法进行估计，使模型预测值与实际值之间的误差平方和最小。

随机森林回归模型是一种基于决策树的集成学习方法，其核心思想是通过构建多棵相互独立的决策树，并对各决策树的预测结果进行集成，从而提升整体模型的预测性能和泛化能力。在模型训练过程中，随机森林通过自助采样法从原始数据集中抽取不同的训练子集，并在每个节点随机选择部分特征进行分裂，从而引入随机性，降低模型过拟合风险。

相较于线性回归模型，随机森林回归模型不依赖于线性假设，能够自动捕捉电影票房与影响因素之间的非线性关系及特征间的交互效应。同时，该模型对异常值和噪声数据具有较强的鲁棒性，适合处理变量类型多样、分布复杂的电影数据。此外，随机森林模型可以通过特征重要性分析评估各变量对预测结果的贡献程度，为票房影响因素的解释提供依据。

XGBoost模型是一种基于梯度提升思想的集成学习方法，其通过迭代方式逐步构建多个弱学习器，并对前一轮模型的预测误差进行重点修正，从而不断提升模型的整体预测能力。与传统梯度提升算法相比，XGBoost在损失函数优化、正则化控制以及计算效率等方面进行了改进，具有较强的预测性能和稳定性。

（二）模型构建与评价指标

在完成数据预处理和特征工程的基础上，本文对电影票房预测模型进行构建与评估。为保证模型训练和测试结果的客观性，首先对数据集进行合理划分。本文采用训练集与测试集相结合的方式，将原始数据集8:2比例划分为训练集和测试集，其中训练集用于模型参数学习，测试集用于检验模型的预测性能，提高预测结果的可信度。

在模型评价方面，本文选取均方根误差（RMSE）、平均绝对误差（MAE）和决定系数（R²）作为主要评价指标。其中，RMSE能够反映模型预测误差的整体水平，对较大误差较为敏感；MAE通过计算预测值与真实值之间的平均绝对偏差，能够直观衡量模型预测误差的平均程度；R²则用于衡量模型对因变量变化的解释能力，其取值越接近1，表明模型拟合效果越好。通过多种评价指标的综合对比，本文对不同模型的预测性能进行全面评估，以选取最优的电影票房预测模型。

四、实证结果与分析

（一）模型预测性能比较

为对不同机器学习模型在电影票房预测中的表现进行系统评估，本文基于测试集结果，对线性回归模型、随机森林回归模型和XGBoost模型的预测性能进行了对比分析。模型预测效果主要通过均方根误差（RMSE）、平均绝对误差（MAE）和决定系数（R²）三个评价指标进行衡量，相关结果如表1所示。

表1 不同模型预测性能比较

模型	RMSE	MAE	R²
线性回归	1513.26	886.49	0.7967
随机森林	268.46	58.38	0.9929
XGBoost	258.11	68.23	0.9935

从结果可以看出，线性回归模型的预测性能明显弱于另外两种机器学习模型。其RMSE为1513.26，MAE为886.49，均显著高于随机森林和XGBoost模型，同时其R²值仅为0.7967，说明线性回归模型只能解释约80%的票房波动。这表明电影票房与各影响因素之间存在较强的非线性关系，传统线性模型在刻画复杂特征交互方面存在明显局限。

相比之下，随机森林和XGBoost模型均表现出显著更优的预测能力。随机森林模型的RMSE和MAE分别下降至268.46和58.38，R²提升至0.9929，说明该模型能够较好地捕捉特征之间的非线性关系，并显著降低预测误差。其基于多棵决策树的集成机制有效缓解了过拟合问题，提高了模型的整体稳定性和泛化能力。

进一步比较可以发现，XGBoost模型在整体预测性能上略优于随机森林模型。XGBoost的RMSE最低，为258.11，R²最高，达到0.9935，表明该模型对电影票房的拟合程度最强；尽管其MAE略高于随机森林模型，但整体误差水平仍处于较低区间。XGBoost通过梯度提升框架不断优化残差，并引入正则化项控制模型复杂度，使其在预测精度和泛化能力之间取得了更好的平衡。

综合来看，XGBoost模型表现最佳，随机森林次之。该结果验证了在多特征、高非线性的数据环境下，采用先进的机器学习方法能够显著提升票房预测的准确性，也为后续的特征重要性分析和模型应用提供了可靠基础。

（二）特征重要性分析

基于预测性能最优的XGBoost模型，本文进一步对电影票房影响因素进行了特征重要性分析，以揭示不同变量在票房预测中的相对贡献程度。图1展示了特征重要性排名前15的变量及其对应的重要性得分。

图1 特征重要性排序

从结果可以看出，制作预算在所有特征中占据绝对主导地位，其重要性得分为0.4423，显著高于其他变量，表明制作投入是影响电影票房的最核心因素。较高的制作预算通常意味着更优质的制作水准、更强的演员阵容以及更高的市场关注度，从而对票房收入产生显著正向影响。其次，营销预算的重要性得分为0.1310，排名第二，说明宣传推广力度在吸引观众、扩大影片市场影响力方面发挥着关键作用。

此外，是否为续集、影片类型、明星影响力以及上映前口碑等因素同样表现出较高的重要性。这表明品牌效应、题材偏好以及观众预期在票房形成过程中具有重要影响。相比之下，导演知名度、MPAA评级、上映月份及片长等变量的重要性相对较低，但仍在一定程度上影响票房表现，反映出发行策略和影片属性的综合作用。

总体而言，XGBoost模型的特征重要性分析结果表明，电影票房主要受资本投入与市场预期因素驱动，同时内容属性与发行因素发挥辅助作用，为电影投资决策和票房预测提供了有价值的实证依据。

（三）实证结果讨论

本文基于电影相关多维特征，构建了线性回归、随机森林和XGBoost等多种预测模型，对电影票房进行实证分析。结果表明，随机森林和XGBoost等集成学习模型在预测精度上显著优于传统线性回归模型，这与已有研究中关于电影票房具有显著非线性特征的结论一致。相关文献普遍认为，票房受制作投入、市场推广及观众预期等多重因素共同影响，单一线性关系难以准确刻画其复杂形成机制，而本文的实证结果进一步验证了这一观点。

在特征重要性分析方面，制作预算和营销预算被识别为影响电影票房的核心因素，这与既有研究中关于资本投入决定票房上限的结论高度一致。同时，是否为续集、影片类型、明星影响力以及上映前口碑等变量也表现出较高的重要性，表明品牌效应、内容属性与观众预期在票房形成过程中发挥着关键作用。这一结果与国内外关于“IP效应”和“明星效应”的实证研究结论基本一致。

从现实意义来看，本文的研究结论对电影投资决策与发行策略具有一定参考价值。一方面，合理配置制作与营销预算，有助于提高影片市场竞争力；另一方面，在项目立项阶段综合考虑题材类型、IP属性及主演阵容等因素，有助于降低票房不确定性。总体而言，本文的实证分析为电影票房预测及相关决策提供了数据支持和方法借鉴。

五、结论与建议

（一）主要研究结论

本文基于电影相关多维度特征数据，围绕电影票房预测问题，构建并比较了线性回归、随机森林和XGBoost等多种机器学习模型，在此基础上对影响电影票房的关键因素进行了系统分析。通过实证结果可以得出以下主要研究结论。

首先，在模型预测性能方面，集成学习模型在电影票房预测任务中表现出显著优势。实证结果表明，随机森林和XGBoost模型在RMSE、MAE及R²等评价指标上均明显优于传统线性回归模型，说明电影票房与其影响因素之间存在较强的非线性关系。相比之下，线性回归模型由于结构相对简单，难以充分刻画多特征之间复杂的交互作用，预测精度相对有限。在综合比较各项指标后，XGBoost模型整体预测性能最优，表现出更强的拟合能力和泛化能力，适合作为电影票房预测的有效工具。

其次，在影响因素分析方面，基于XGBoost模型的特征重要性结果显示，制作预算是影响电影票房的最核心因素，其重要性显著高于其他变量，表明资本投入在决定影片票房规模中具有基础性作用。营销预算的重要性同样较高，反映出市场推广力度对观众关注度和票房转化的关键影响。此外，是否为续集、影片类型、明星影响力以及上映前口碑等因素也对票房表现产生重要影响，说明品牌效应、内容属性与观众预期共同作用于票房形成过程。相比之下，导演知名度、上映时间及影片时长等因素的重要性相对较低，但仍在一定程度上影响票房结果。

总体而言，本文从预测性能和影响机制两个层面对电影票房问题进行了实证验证，为相关研究提供了有益补充。

（二）管理启示与实践建议

基于本文的实证分析结果，可为电影投资、制作与发行实践提供一定的管理启示。首先，在投资决策层面，研究结果表明制作预算和营销预算是影响电影票房的核心因素。因此，投资方在项目立项阶段应重点关注影片的整体投入规模，并在风险可控的前提下合理配置资金结构。对于具备成熟IP或续集属性的影片，可适当提高投资力度，以充分发挥品牌效应带来的票房优势；而对于原创影片，则需更加审慎地评估题材市场潜力和目标受众，以降低投资风险。

其次，在制作与营销层面，制作方应在保证影片内容质量的基础上，科学统筹制作成本与营销资源。实证结果显示，明星影响力、影片类型及上映前口碑对票房表现具有重要影响，这意味着在演员选择、题材定位及前期宣传策略上应更加注重市场匹配度。同时，合理安排宣传节奏、强化口碑传播，有助于提升观众观影意愿和市场关注度。总体而言，将数据分析结果融入电影项目管理与营销决策，有助于提高票房预测的科学性和资源配置效率，为电影产业的精细化运营提供支持。

（三）研究不足与展望

尽管本文在电影票房预测及影响因素分析方面取得了一定研究结论，但仍存在一些不足之处。首先，在数据层面，本文所使用的数据集主要基于已有公开信息，部分潜在影响因素（如观众结构特征、线上平台热度及口碑动态变化等）未能纳入分析，可能在一定程度上限制了模型对票房形成机制的全面刻画。此外，样本时间跨度和区域范围的限制，也可能影响研究结论的普适性。

其次，在研究方法方面，本文主要采用传统机器学习模型进行实证分析，虽能较好刻画非线性关系，但仍未充分考虑时间序列特征及动态效应。未来研究可在此基础上引入深度学习模型或结合文本分析、情感分析等方法，进一步挖掘影评、社交媒体信息对票房预测的影响，以提升模型预测精度和解释能力。

参考文献：

[1] 查淳.基于BP神经网络的华莱坞电影票房预测研究[D].内蒙古财经大学,2024.
[2] 胡鹏星.基于随机森林的中国电影票房预测研究[D].北京交通大学,2024.
[3] 陈潇潇.基于机器学习的电影票房预测[D].北方工业大学,2024.
[4] 宋玉萍,朱家明,杨琴,等.基于随机森林回归的国产电影首周票房预测分析[J].高师理科学刊,2021,41(01):21-26.

新经济研究

Journal of New Economic Studies

相关文章

基于机器学习的电影票房预测与特征重要性分析

Machine Learning-Based Movie Box Office Prediction and Feature Importance Analysis

引言

一、文献综述与研究内容

（一）文献综述

（二）研究内容

二、数据说明与预处理

（一）数据来源与样本描述

（二）变量选取与定义

（三）数据预处理方法

三、研究方法

（一）机器学习模型原理

（二）模型构建与评价指标

四、实证结果与分析

（一）模型预测性能比较

（二）特征重要性分析

（三）实证结果讨论

五、结论与建议

（一）主要研究结论

（二）管理启示与实践建议

（三）研究不足与展望

参考文献：