基于机器学习的企业“专精特新”认定影响因素识别研究

韩文喆

当前位置：首页 > 经济管理前沿 > 基于机器学习的企业“专精特新”认定影响因素识别研究

经济管理前沿

Frontiers in Economics and Management

主办单位:
未來中國國際出版集團有限公司
ISSN:
3079-3696（P）
ISSN:
3079-9090（O）
期刊分类:
经济管理
出版周期:
月刊
投稿量:
3
浏览量:
773

基于机器学习的企业“专精特新”认定影响因素识别研究

Research on Identifying Influencing Factors for Enterprise“Specialized, Sophisticated, Distinctive, and Innovative”Recognition Based on Machine Learning

发布时间：2026-02-05

作者: 韩文喆 :西南大学经济管理学院重庆;

摘要: 本研究基于2018-2023年沪深A股中小企业数据，探讨利用机器学习算法识别“专精特新”企业的潜力。研究背景源于国家梯度培育政策的需求，传统认定方法存在主观性时滞问题。通过整合财务与专利数据，构建XGBoost预测模型，实证显示模型AUC达0.896，性能优于逻辑回归等基准模型。特征重要性分析揭示研发强度、专利存量和净资产收益率为核心驱动因素，印证了“创新投入－产出－效益”的政策逻辑，为政府精准筛查和企业自我提升提供了数据支撑。

Abstract: This study explores the potential of using machine learning algorithms to identify "specialized, refined, distinctive, and innovative" enterprises based on data from small and medium-sized enterprises (SMEs) listed on the Shanghai and Shenzhen A-shares markets from 2018 to 2023. Motivated by the national tiered cultivation policy, the research addresses the subjectivity and time lags inherent in traditional identification methods. By integrating financial and patent data, an XGBoost prediction model was constructed. Empirical results show the model's AUC reaching 0.896, outperforming benchmark models such as logistic regression. Feature importance analysis reveals R&D intensity, patent stock, and return on equity as core drivers, validating the policy logic of "innovation input-output-benefit." The findings provide data support for government precision screening and corporate self-improvement.

关键词: 专精特新；机器学习；XGBoost；特征重要性

Keywords: “specialization, refinement, specialization, and innovation” enterprises; machine learning; XGBoost; feature importance

引言

中小企业是我国国民经济的重要支柱，在推动创新、促进就业和改善民生方面发挥着关键作用。截至2024年，国家已累计培育专精特新“小巨人”企业1.46万家和专精特新中小企业超14万家，党中央、国务院高度重视此类企业培育。然而，传统认定方法依赖专家评审或固定指标评分，存在主观性和时滞性问题，因此本研究核心问题是：能否利用机器学习算法，基于企业公开的财务和专利数据，构建高精度分类预测模型，自动、快速地识别潜在专精特新企业？研究旨在为政策部门提供数据驱动工具，并为学术界探索新视角。研究思路遵循“理论奠基—数据整合—模型构建—实证研判—对策提出”的递进式技术路线：首先系统梳理政策内涵和机器学习应用现状；其次整合沪深A股上市中小企业的财务数据、专利数据与官方认定名单，构建结构化面板数据集；然后选用XGBoost等算法训练模型，重点进行特征重要性分析以识别核心驱动因素；最后深入讨论实证结果，提出针对性建议。研究意义体现在理论层面，将机器学习预测模型引入产业经济学领域，突破了传统计量经济学方法的局限，丰富了企业资质评估的方法论工具箱，并通过量化特征图谱为理解创新驱动型企业的成长机理提供新证据；在实践层面，模型可为政府提供高效、客观的潜力企业筛查与动态监测工具，提升培育政策的前瞻性和资源配置效率，同时为中小企业提供清晰的对标指引，帮助其提升创新能力和经营质量，最终服务于国家创新驱动发展战略的深入实施。

一、文献综述与理论基础

（一）“专精特新”政策的理论内涵与演进

“专精特新”概念是我国中小企业政策体系的核心。其政策演进经历了从地方实践到国家战略的过程，最终形成了“创新型中小企业—专精特新中小企业—专精特新‘小巨人’企业”的梯度培育体系。该概念强调专业化、精细化、特色化、新颖化，与国际上“隐形冠军”理论有异曲同工之妙，均着眼于企业在细分市场中的专注与创新。为提升培育的精准性，工业和信息化部发布了《中小企业专精特新发展评价指标体系》，标志着认定与培育工作进入了标准化、量化的新阶段。

（二）“专精特新”企业特征与政策效应研究

1. 企业特征研究

基于工信部数据及相关实证研究，专精特新“小巨人”企业展现出鲜明的“5678”群体特征：超过五成企业的研发投入在1000万元以上，研发人员占比约25%，平均研发强度超过7%，远高于规上工业企业平均水平；约六成企业集中于工业基础领域，广泛分布在通用设备、专用设备、电气机械等制造业细分行业；超过七成企业长期深耕细分领域10年以上，表现出高度的专业专注；约八成企业在所属省份的细分市场中占据领先地位。这些“小巨人”企业平均拥有发明专利数量超过15项，有效发明专利总量占全国企业发明专利总量相当比重，凸显了其强大的创新能力和技术积累。此外，它们在经济绩效方面也表现突出，近两年营业收入和净利润平均增速显著高于上市公司平均水平，显示出“小配件蕴含高技术、小企业支撑大配套”的显著特点，已成为提升产业链供应链韧性和推动制造业高质量发展的重要力量。

2. 政策效应评估研究

现有研究多采用计量经济学方法评估“专精特新”政策的因果效应。韩洪灵等（2024）发表在《数量经济技术经济研究》上的研究，以2015—2022年沪深A股上市公司为样本，发现“小巨人”企业能够通过供应链关系产生显著的后向溢出效应，提升其客户企业的全要素生产率，效应约为7.2%。其机制在于提升上下游企业的产能利用率、商业信用和信号传递。伍中信等（2023）的研究表明，“专精特新”政策可以通过缓解融资约束、提升研发人员占比、加速数字化转型等机制，有效促进中小企业全要素生产率的提升，尤其在制造业和信息技术服务业等行业效果更为明显。

现有研究为理解“专精特新”企业的特征和政策效果提供了扎实的实证基础，但绝大多数研究采用传统的计量经济学方法进行因果推断，旨在评估政策“实施后”的效果。相比之下，从预测视角出发，利用机器学习方法识别企业潜力的研究尚属前沿探索。

（三）机器学习在经济学与企业研究中的应用

机器学习算法凭借其处理高维、非线性数据的能力，在经济学和企业研究中的应用日益广泛。例如，XGBoost是一种高度可扩展的梯度提升决策树系统，在大规模结构化数据的分类和回归预测任务中表现出色。相较于传统Logit模型，其优势在于能自动处理特征间的复杂交互效应，且对多重共线性不敏感。

在模型可解释性方面，基于XGBoost模型对计算的特征重要性进行排名，这使得研究人员不仅能得到高精度的预测结果，还能理解是哪些关键因素驱动了预测，从而回答“哪些特征对企业成为‘专精特新’最为重要”的问题。

综上所述，现有研究在揭示“专精特新”企业特征和政策评估方面取得了丰硕成果，但在方法论上存在明显缺口：主要依赖传统计量模型进行因果检验，缺乏从预测视角识别潜力企业的研究。本研究旨在填补这一空白，其创新点在于：将机器学习中的XGBoost模型引入该领域，从“预测”和“因素识别”的新角度，为专精特新企业的梯度培育和政策精准施策提供基于数据驱动的新依据。

二、研究设计

（一）数据来源与样本选择

本研究选取2018-2023年我国沪深A股上市的中小企业作为初始研究样本。数据来源于以下渠道：

企业资质数据：从工业和信息化部及各省级工信部门官方网站逐家搜集并核对“专精特新”中小企业及“小巨人”企业认定名单，将企业在样本期间内首次出现在名单中的年份标记为认定年份，并设置相应的二元标签。

财务数据：来源于国泰安（CSMAR）数据库和万得（Wind）数据库，提取样本企业年报中的关键财务指标。

专利数据：从国家知识产权局的专利公报及中国研究数据服务平台（CNRDS）获取企业的发明专利申请与授权数量。

初始样本经过如下处理：剔除主要变量数据严重缺失的样本；剔除被标记为ST、*ST等特殊处理的企业样本；为避免极端值的影响，对所有的连续变量在1%和99%分位数上进行缩尾处理。最终获得一个涵盖6年观测期的非平衡面板数据集。

（二）变量定义与选取

本研究以企业是否被认定为“专精特新”或“小巨人”作为因变量，设置为二元变量（is_specialty）。具体定义为：若企业i在年份t被认定为“专精特新”或“小巨人”企业，则令Y_it=1，否则为0。自变量则依据工信部《中小企业专精特新发展评价指标体系》及相关研究，从以下两个维度选取预测特征：第一，创新能力：包括研发投入总额（取自然对数处理，记为ln_rd）、研发投入占营业收入比重（rd_ratio）、研发人员数量占比，以及采用永续盘存法计算的发明专利存量（patent_stock）；第二，精细化水平：涵盖净资产收益率（ROE）与销售净利率（profit_margin）等反映企业盈利效率的指标。各变量的具体名称、定义及计算方式见表1。

表1变量定义与计算方式

变量维度	变量名	计算公式
是否“专精特新”或“小巨人”	is_specialty	直接根据认定名单赋值：认定当年及之后年份为1，否则为0
创新能力	rd_ratio（研发强度）	研发投入/营业收入
	ln_rd（研发投入）	ln（研发投入+1）
	patent_stock（专利存量）	使用永续盘存法计算
精细化水平	ROE（净资产收益率）	净利润/净资产
精细化水平	profit_margin（销售净利率）	净利润/营业收入

（三）机器学习模型选择与评估

本研究选择XGBoost（eXtremeGradientBoosting）作为基准模型，其主要优势在于能够通过梯度提升框架有效集成多个弱学习器（决策树），从而捕捉变量间的复杂非线性关系与交互效应。该模型通过引入正则化项与控制过拟合的技术，在保证预测性能的同时提升了模型的泛化能力。

模型训练与评估遵循以下流程：

数据划分：将总体样本按7:3的比例随机划分为训练集与测试集，确保模型评估的客观性。

参数调优：在训练集上采用五折交叉验证，并结合贝叶斯优化方法，对学习率（learning_rate）、树的最大深度（max_depth）及子采样比例（subsample）等关键超参数进行调优，以最大化交叉验证的AUC值。

模型评估：使用优化后的参数在训练集上训练最终模型，并在测试集上计算以下评估指标：准确率、精确率、召回率、F1-Score和AUC值。同时，将XGBoost的性能与逻辑回归、随机森林等基准模型进行对比，以验证其优越性。

（四）分析方法：特征重要性

为深入识别关键影响因素并增强模型的可解释性，本研究采用特征重要性分析，具体基于XGBoost模型提供的“增益”（Gain）指标对特征进行排序。该指标通过计算各特征在所有决策树中作为分裂节点时所带来的平均信息增益，以量化其对提升模型预测纯度的相对贡献。

相较于“权重”（Weight，即特征被用于分裂的次数）和“覆盖度”（Cover，即特征所影响的样本范围）这两种指标，“增益”能够更直接地反映特征在每次分裂中对模型目标函数优化的实际贡献量，因而更适用于精准识别那些对预测结果具有强判别力的关键特征。选择“增益”作为评估标准，旨在优先筛选出在降低模型不确定性方面贡献最显著的特征变量，从而确保后续分析聚焦于核心驱动因素。

三、实证结果与分析

（一）描述性统计与数据预处理

本研究最终获得的样本为2018-2023年间观测值共计4257个的非平衡面板数据。所有连续变量均进行了1%分位数的缩尾处理，以消除极端值的影响。表2报告了全样本及已认定组（Y=1）与未认定组（Y=0）主要变量的描述性统计结果。

表2变量描述性统计

变量名	样本	观测值	均值	标准差	最小值	中位数	最大值
is_specialty	全样本	4257	0.18	0.38	0	0	1
	认定组（Y=1）	766	1	0	1	1	1
	未认定组（Y=0）	3491	0	0	0	0	0
rd_ratio(%)	全样本	4257	5.62	4.85	0.11	4.33	25.9
	认定组（Y=1）	766	8.91	5.12	0.85	7.68	25.9
	未认定组（Y=0）	3491	4.95	4.52	0.11	3.82	24.75
ln_rd	全样本	4257	17.85	1.45	13.82	17.92	21.03
	认定组（Y=1）	766	18.72	1.32	15.65	18.65	21.03
	未认定组（Y=0）	3491	17.65	1.42	13.82	17.72	20.88
patent_stock	全样本	4257	85.46	152.73	0	28	1050
	认定组（Y=1）	766	186.55	245.18	2	95	1050
	未认定组（Y=0）	3491	63.27	112.4	0	18	892
ROE(%)	全样本	4257	8.15	10.25	-25.41	8.33	32.67
	认定组（Y=1）	766	11.23	7.85	-10.12	10.89	32.67
	未认定组（Y=0）	3491	7.42	10.55	-25.41	7.85	31.04
profit_margin(%)	全样本	4257	7.83	12.06	-35.5	7.15	45.21
	认定组（Y=1）	766	10.56	9.87	-15.33	9.72	45.21
	未认定组（Y=0）	3491	7.15	12.35	-35.5	6.78	43.69

表2报告了主要变量的描述性统计结果。对比已认定组（Y=1）和未认定组（Y=0）的均值差异可以发现，已认定企业的研发投入强度、研发人员占比、净资产收益率等指标的均值均显著高于未认定企业，这初步符合理论预期。数据预处理环节，对缺失的财务数据，若为连续变量采用中位数填充，若为类别变量视为单独一类。专利存量的计算采用15%的折旧率。

（二）模型预测性能评估

为评估模型性能，将样本按7:3随机划分为训练集（2981个观测值）和测试集（1276个观测值）。本章对比了逻辑回归（Logistic Regression）、随机森林（Random Forest）与XGBoost三种模型，结果如表3所示。

表3展示了各模型在测试集上的性能指标。XGBoost模型的AUC值达到0.896，显著高于逻辑回归和随机森林等对比模型，F1-Score为0.583，在精确率与召回率之间取得了最佳平衡，显示出更强的综合预测性能。这表明XGBoost模型在识别潜在“专精特新”企业方面具有较高的判别能力与稳定性，且其能够更有效地捕捉影响企业认定的复杂非线性关系，因此选定其为本章后续分析的基准模型。

表3 模型性能对比

模型	AUC	准确率 (Accuracy)	精确率 (Precision)	召回率 (Recall)	F1-Score
逻辑回归（LogisticRegression）	0.812	0.831	0.352	0.588	0.441
随机森林（RandomForest）	0.848	0.856	0.423	0.602	0.495
XGBoost	0.896	0.882	0.514	0.673	0.583

（三）影响因素识别结果：基于特征重要性

基于XGBoost模型计算的特征重要性排序结果如图1所示。特征重要性度量了各特征在所有决策树中进行节点分裂时，对模型预测结果纯度提升的平均贡献程度，其数值越高，表明该特征在区分企业是否属于“专精特新”过程中所起的作用越关键。

图1 XGBoost模型特征值重要性排名

分析显示，研发强度（rd_ratio）的特征重要性得分最高，显著超过其他变量，是模型进行判别的首要依据。专利存量（patent_stock）与净资产收益率（ROE）分别以0.22和0.16的重要性得分位列第二、三位。研发投入对数（ln_rd）与销售净利率（profit_margin）也具有一定贡献，但影响相对较弱。

这一排序结果具有清晰的经济内涵：首先，研发强度直接对应“新颖化”要求，是企业进行技术创新和维持技术优势的持续承诺，构成了最核心的判别信号。其次，专利存量作为研发活动的成果体现和法律化载体，代表了企业的创新质量与构建技术壁垒的能力，是“专业化”与“特色化”的客观表征。最后，净资产收益率反映了企业的盈利效率和资本运用效能，高ROE意味着创新成果已成功转化为市场竞争力与财务稳健性，体现了“精细化”运营的内在要求。该结果表明，“专精特新”企业的识别依赖于一个从“创新投入”到“创新产出”再到“市场效益”的连贯证据链，模型有效地捕捉了这一政策逻辑。

四、结论与建议

（一）研究主要结论

本研究基于2018年至2023年沪深A股中小企业的面板数据，构建了XGBoost机器学习预测模型，对企业获评“专精特新”的潜力进行评估，并借助特征重要性排序识别核心影响因素。实证结果表明，机器学习模型在此项分类预测任务中表现出高效性，所构建的模型判别效能优异，其性能显著优于逻辑回归等传统基准模型，凸显了数据驱动方法在企业资质评估领域的应用潜力。

特征重要性分析揭示，研发投入强度、发明专利存量与净资产收益率（ROE）是预测企业能否获评“专精特新”的三个最具影响力的特征。这一发现从数据驱动视角强有力地印证：创新能力（体现为研发投入与专利积累）与卓越的盈利质量（体现为ROE）共同构成了“专精特新”企业最核心的内在特质。该结论与政策导向高度契合，专精特新“小巨人”企业培育计划本就侧重于在制造业关键领域培育具有创新能力和高质量效益的优质企业。

上述发现具有明确的政策启示：政府部门在制定梯度培育政策时，可重点关注企业的研发投入强度、专利成果转化效率及净资产收益率等关键指标，以建立更精准的潜力企业筛查机制。对于广大中小企业而言，应着力提升研发创新的持续性与效率，并将技术优势转化为实实在在的盈利能力和市场竞争优势，从而在专精特新的发展道路上行稳致远。

（二）研究局限性与未来展望

本研究虽在一定程度上揭示了“专精特新”企业的关键特征，但仍存在若干局限，同时也为未来研究指明了方向。

本研究的样本主要集中于上市公司，未能充分覆盖数量更为庞大的非上市中小企业，这可能限制研究结论的普适性。在变量选择上，主要依赖结构化的财务与专利数据，未能纳入如企业战略文本、企业家特质等难以量化的“软信息”，这可能影响对企业“专精特新”内涵的全面刻画。此外，本研究采用的机器学习模型本质上是静态和关联性的，难以严格论证变量间的因果关系，且模型的预测效能可能随着政策与市场环境的演变而发生变化。

未来研究可尝试引入企业年报文本、舆情数据等多模态信息，利用自然语言处理等技术挖掘更深层次的特征，以弥补当前量化数据的不足。在方法上，可探索将双重机器学习等因果推断框架与可解释人工智能技术相结合，以期在保持高预测性能的同时，更清晰地识别关键因素的因果效应。最后，将研究样本拓展至新三板乃至非上市企业，并构建动态追踪模型，将有助于揭示企业成长的动态路径，提升研究的时效性与外部有效性。

参考文献：

[1] 韩洪灵,彭瑶,刘强,等. “小巨人”大效应:专精特新认定、供应链溢出与企业生产率[J]. 数量经济技术经济研究,2024,41(12):177-198.
[2] 伍中信,黄滢滢,伍会之. 专精特新政策会促进中小企业高质量发展吗？——来自全要素生产率的证据[J]. 中南大学学报(社会科学版),2023,29(03):129-140.
[3] 李先军. 加速“专精特新”中小企业培育和发展着力提升产业链供应链安全[N]. 中国经营报,2023-03-27(A04).
[4] 刘芳芳.发展“专精特新”实现补链强链[N]. 中国建材报,2021-12-02(001).
[5] 经济日报. 发挥企业补链强链稳链作用[EB/OL]. (2023-09-20)[2012-12-25]. https://baijiahao.baidu.com/s?id=1777508093364360856&wfr=spider&for=pc.
[6] Chen T, Guestrin C. XGBoost: A scalable tree boosting system[C]//Knowledge discovery and data mining.2016.
[7] Lundberg S, Lee S I. A unified approach to interpreting model predictions[C]//Nips.2017.
[8] 魏治锬. 一种基于FP-growth算法优化的XGBoost模型[J]. 网络安全技术与应用,2025(11):40-45.
[9] Wang X, Wang L, Wang S, et al. An XGBoost-enhanced fast constructive algorithm for food delivery route planning problem[T]. Computers & Industrial Engineering,2020.
[10] 赫尔曼·西蒙. 隐形冠军：未来全球化的先锋[M]. 张帆,译. 北京:机械工业出版社,2015.

经济管理前沿

Frontiers in Economics and Management

相关文章

基于机器学习的企业“专精特新”认定影响因素识别研究

Research on Identifying Influencing Factors for Enterprise“Specialized, Sophisticated, Distinctive, and Innovative”Recognition Based on Machine Learning

引言

一、文献综述与理论基础

（一）“专精特新”政策的理论内涵与演进

（二）“专精特新”企业特征与政策效应研究

1. 企业特征研究

2. 政策效应评估研究

（三）机器学习在经济学与企业研究中的应用

二、研究设计

（一）数据来源与样本选择

（二）变量定义与选取

（三）机器学习模型选择与评估

（四）分析方法：特征重要性

三、实证结果与分析

（一）描述性统计与数据预处理

（二）模型预测性能评估

（三）影响因素识别结果：基于特征重要性

四、结论与建议

（一）研究主要结论

（二）研究局限性与未来展望

参考文献：