基于K-Means算法的电商客户价值细分研究

司华凤

当前位置：首页 > 经济管理前沿 > 基于K-Means算法的电商客户价值细分研究

经济管理前沿

Frontiers in Economics and Management

主办单位:
未來中國國際出版集團有限公司
ISSN:
3079-3696（P）
ISSN:
3079-9090（O）
期刊分类:
经济管理
出版周期:
月刊
投稿量:
3
浏览量:
636

基于K-Means算法的电商客户价值细分研究

Research on E-Commerce Customer Value Segmentation Based on K-Means Algorithm

发布时间：2026-04-27

作者: 司华凤 :云南财经大学云南昆明;

摘要: 随着互联网的快速发展，淘宝平台已经逐渐成为人们重要的购物渠道之一。其背后产生的成交数据隐藏着巨大的商业价值，而如何对这些数据进行分析，并构建出精准的用户画像，对于企业的发展是至关重要的。一些电商企业由于没有做好用户的分类，对所有用户使用相同的销售策略，导致用户粘性不高，为解决该问题，现使用RFM模型和K-Means聚类分析法，对高校学生的消费数据进行分析，得出该部分学生的消费行为规律，再根据不同用户的特性，提出有针对性的销售策略,从而提升企业的竞争力。

Abstract: With the rapid development of the Internet, the Taobao platform has gradually become one of the important shopping channels for people. The transaction data generated behind it contains huge commercial value, and how to analyze such data and construct accurate user profiles is crucial to the development of enterprises. Some e-commerce enterprises fail to properly classify users and adopt the same sales strategy for all users, resulting in low user stickiness. To solve this problem, this paper adopts the RFM model and K-Means clustering analysis to analyze the consumption data of college students, so as to obtain the consumption behavior patterns of this group. Then, targeted sales strategies are proposed according to the characteristics of different users, thereby enhancing the competitiveness of enterprises.

关键词: 电商客户；数据挖掘；价值细分；K-Means

Keywords: e-commerce customers; data mining; value segmentation; K-Means

引言

近年来，数字经济浪潮席卷全球，互联网经济的蓬勃发展成为驱动中国经济高质量增长的核心引擎，电商行业作为数字经济的关键支柱，其市场规模持续扩张，在国民经济中的战略地位不断凸显。据国家统计局数据显示，2024年全国网上零售额达155225亿元，同比增长7.2%，其中实物商品网上零售额130816亿元，增长6.5%，占社会消费品零售总额的比重攀升至26.8%，连续12年稳居全球最大网络零售市场，占全球网络零售总额约33%。从长期发展轨迹来看，自2011年至2023年，中国电商交易规模实现了跨越式增长，整体呈现稳步上升态势。

一、背景和意义

值得关注的是，电商行业增长节奏呈现阶段性特征，增速演变折射出行业发展的成熟度与市场环境的变化。2018 年之前，行业处于高速增长期，交易规模年增长率长期保持在10%以上，市场红利显著，入局者持续增多，业态创新加速迭代。2019-2020 年，受宏观经济结构调整、市场竞争加剧及消费需求分化等多重因素影响，行业增速回落至10%以下，步入高质量发展转型期，粗放式增长模式难以为继，行业开始聚焦精细化运营与价值挖掘。2021年，线下消费场景受限，线上消费需求集中释放，电商行业迎来增长反弹，交易规模增速回升至15%，总规模突破40 万亿元，充分彰显了行业在应对外部挑战、适应宏观经济波动中的强大韧性与增长潜力。进入2024 年，直播带货、即时零售、AI 驱动的智能推荐等新型消费模式蓬勃发展，进一步激活线上消费活力，通讯信息服务类零售额实现两位数增长，为行业持续注入新动能。

然而，在行业规模持续扩容的同时，服务质量短板逐渐成为制约行业高质量发展的关键瓶颈，用户满意度偏低的问题亟待破解。据相关调研数据显示，当前电商行业整体用户服务满意度仅为31%，与行业发展规模极不匹配。从具体痛点来看，物流服务效率问题尤为突出，相关投诉占比高达38%，成为影响用户体验的首要因素；售后服务领域问题频发，2024 年全国市场监管部门受理的电商类投诉中，售后服务问题连续两年位居首位，超400 万件，主要集中在不退款、不发货、不履行 “三包”义务等方面；智能客服体验不佳问题凸显，相关投诉同比增长56.3%，普遍存在答非所问、人工客服难联系等情况，沟通效率低下，严重影响消费体验；此外，商品质量参差不齐、价格透明度不足、退换货流程繁琐等问题也较为突出，三者合计占投诉总量的42%，成为阻碍用户满意度提升的核心障碍。这些问题不仅削弱了用户的消费粘性与品牌忠诚度，也制约了电商企业的可持续发展，倒逼行业探索精细化运营路径，以服务升级实现差异化竞争。

在大数据技术深度渗透的当下，通过数据驱动实现精准用户细分与个性化服务策略，成为电商企业破解服务痛点、提升核心竞争力的关键路径。大数据技术能够帮助企业全面采集、深度分析用户全生命周期数据，包括消费偏好、浏览行为、互动记录、售后反馈等，打破传统运营中信息不对称的壁垒，实现从 “以货为中心” 向 “以人为中心” 的转型。一方面，精准的用户细分能够帮助企业精准识别不同群体的需求差异，避免同质化服务带来的资源浪费，提升服务供给的针对性与有效性；另一方面，基于数据洞察制定的特定服务策略，能够优化用户购物全流程体验，从售前咨询、商品推荐，到售中履约、售后保障，全链路贴合用户需求，进而提升用户满意度与忠诚度。同时，大数据的综合应用还能加速企业数字化运营进程，优化供应链管理、提升营销转化效率、降低运营成本，助力企业在竞争激烈的市场中构建独特优势，实现经济效益与品牌价值的双重提升。

本文以高校学生双十一期间在淘宝平台的消费情况为研究对象，通过 K‑means 算法对用户数据进行聚类分析，深入挖掘不同学生群体的消费特征与行为规律，帮助平台更深入地了解高校学生的购物行为与消费需求，利用大数据技术实现更精准的个性化服务和高效的精准营销，进而帮助淘宝平台在竞争激烈的电商领域优化运营模式，实现健康长久发展。

二、数据的来源与预处理

（一）数据的来源

考虑到数据的可得性和真实性，经研讨后，本研究以高校学生（包括大学生、研究生、博士生）为研究对象，选取了电商平台中交易量较高的淘宝平台中的消费数据。截至2023年12月20日，笔者收集了2023年10月24日到2023年11月30日（即双十一期间）的150个高校学生在淘宝平台的真实消费数据。

（二）数据的预处理

经过上面过程的筛选与整理，得到了168条数据。由于数据中含有的异常值可能会影响聚类的实际效果，所以本文利用Python中LOF算法对数据进行分析^[1]，得知数据中异常值的数量为3，查询发现，数据集中含有1条时间小于10月24日的记录，和2条时间大于11月30日的记录，不符合要求，因此删除此3条记录，得到165条行为记录。

考虑到电商平台“双十一”活动参与的广泛性和时间统计的抽象性，本研究将最近消费时间分为十一月之前以及十一月的上、中、下旬，分别设定值为1、3、5、7。并且由于消费金额（M）和消费次数（F）成正比，所以两者之间或存在共线的问题，这容易使得本研究产生误差。为减小该误差，本文计算并选用平均消费金额为M值。

考虑到学生群体消费水平的显著差异及其对研究结果的潜在干扰，本研究采用了离差规范化法（也称为最小—最大规范化法）来降低这种差异的影响，并增强研究结果的准确性。离差规范化法通过对原始数据进行线性变换，将其映射到0到1的范围内，转换后的数据以小数形式呈现。这种方法有效缩小了数据间的差异，减轻了数据原有取值范围和量纲对分析结果的影响。通过这种标准化处理，研究能够更准确地反映学生群体内不同消费水平的影响，提供更为精准的分析结果。其转换公式如下：

（1）

公式中，max和min为样本中同类数据的最大、最小值；x是样本初始数据值；x*指离差规范化处理后的数据值。

三、基于K-Means的淘宝用户消费行为数据分析

（一）K-Means算法

运用K-Means算法对搜集到的数据进行归一化处理可以对用户精准细分，K-Means 算法的基本思想是将数据集中的样本划分为 k 个簇（cluster），使得簇内的样本尽可能相似（即内部距离小），而不同簇的样本尽可能不同（即簇间距离大），用迭代的方法得到聚类结果，使得评价聚类的准则函数取得最优值^[2]。这个算法的目标是最小化簇内样本与簇中心的平方误差之和，这也被称为簇的“惯性”或“内部方差”。

K-Means有四个主要步骤:第一，随机选择k个初始集群中心，每个对象初始地代表了一个簇的平均值或中心；第二，对于剩余的每个对象，根据每一样本与质心之间的相似度（即欧氏距离），将样本点归类到最相似的类别（簇）之中；第三，重新计算每个簇的平均值，确定新的质心；第四，重复（2），（3）过程，直到质心不再改变或达到设定的迭代次数。

由于该方法需要使用者自行选定K值，而K值对聚类结果影响较大，鉴于本文作者知识储备不足，仅凭经验随机选定K值将会使结果产生较大偏差，缺乏科学性，因此本文运用手肘法确定最佳聚类数。

（二）数据分析

（1）运用手肘法确定K值

手肘法核心思想如下：随着分类类别数的增加，SSE 的下降幅度会骤减，然后随着 K 值的继续增大而趋于平缓。也就是说误差平方和 SSE 和K 值的关系图是一个手肘的形状，而肘部对应的 K 值就是本次聚类的最佳聚类数。手肘法即为选取肘部对应的那个拐点。

核心指标：SSE（sum of the squared errors，误差平方和）

（2）

是第个簇，是中的样本点，是的质心（中所有样本的均值）。

SSE是所有样本的聚类误差。

根据大量文献阅读以及所学理论知识可知，K值一般设定在[2，8]内。绘制K值与SSE的关系图，如图1所示，运用手肘法确定本次数据分析中应选取最佳聚类数K=4。

图1 不同聚类数目下的SSE值

（2）聚类分析

利用Weka软件进行聚类分析，结果整理汇总如表1所示。

表1 K-Means结果汇总

聚类群体	用户数量	所占比例	年度消费次数	年度平均消费金额
1	30	18.18%	0.334	0.217
2	20	12.12%	0.167	0.813
3	37	22.42%	0.043	0.205
4	78	47.27%	0.156	0.234
有效总值		165
缺失值		0

四、结果的分析与建议

根据分析每个聚类中的个案数可知，分类类别为四时聚类效果最好。通过观察分类情况和最终聚类中心，可以看出不同类别的高校学生消费群体有着不同的差异，差异在消费次数和消费金额上均有所体现。以下是对聚类出的不同消费群体进行分析。

第一类学生群体中包含30个案例，在样本总数中所占比例不大，该部分用户的消费频次最高，但平均消费金额较低。因此可推测这类用户在淘宝平台的粘性不高，产生的价值有待提升。同时此类用户对淘宝平台的信任度一般，只是习惯从该电商平台购买一些日常用品或价值较低优惠较大的产品，若涉及到金额较大的产品则会选择其他电商平台或线下实体店购买。该类学生群体可划分为次优质消费群。针对此类用户，一方面可以推出更多的物美价廉的产品，另一方面，可以提供更多的诸如运费险之类的保障措施，让用户购买平台的产品没有后顾之忧，即使是金额较大的产品，也可以放心购买，从而逐渐开发出此类用户的消费潜力。

第二类学生群体包含20个案例，在样本总数中所占比例最小，该部分用户的消费频次一般，但平均消费金额较大。因此可推测该类用户的用户粘性较好，虽然顾客群的购买次数跨度较大，不会频繁的从淘宝平台购买商品，但是可以推测出，此类用户对淘宝平台的信任度较高，所以消费金额较大，如果有其他日常用品的需求，也不会过于在意商品的价格，只要能满足需求，会习惯于从淘宝平台购买。该类学生群体可划分为优质消费群。针对此类用户，首先要做好客户维护工作，要注意根据该类用户的消费偏好推送相应的产品，在进行产品推荐时，更多的注重产品质量而非价格，进一步提高用户的服务满意度和对淘宝平台的信任度。

第三类学生群体包含37个案例，在样本总数中所占比例较小，且其购买频次和平均消费金额均为最低。因此可推测该类用户的用户粘性较差，由于对淘宝平台的信任度不高或消费水平较低，较少使用该平台，有消费需求时会在其他电商平台或线下实体店购买。该类学生群体可划分为一般消费群。针对此类用户，淘宝平台可考虑定期推送性价比较高或优惠力度较大的产品，来吸引用户的眼球，从而增加该类用户对淘宝平台的粘性。此外，淘宝电商也应对该部分用户群体进行追踪服务，一旦前期策略发生作用使得消费者群体转变为其他类型用户群体时，其服务策略需及时调整。

第四类学生群体包含78个案例，在样本总数中所占比例最大，该部分用户的消费频次和平均消费金额均处于中等水平。因此可推测该类用户的粘性居中，但不会从淘宝平台古语频繁的购买金额较高的产品，客户价值一般，但是却具有较大的开发价值。该类学生群体可划分为潜力消费群，拥有固定的从该平台购买的商品清单，购物频次和金额较为稳定。针对此类用户，淘宝平台可以考虑在做好现有的客户维护的基础上，定期推送其经常购买的优质同类产品，以求逐渐提高该类用户对高价值产品的购买力度，并且提供更多保障以提高该部分用户的信任度，充分开发该部分用户群体的购买潜力。

五、结语

在大数据时代，对电商行业而言，精准的用户细分至关重要。它使企业能够高效地定位目标客户，提升营销活动的转化率和投资回报。通过了解用户的具体需求和偏好，电商平台可以提供个性化的购物体验和推荐，增强用户满意度和忠诚度。此外，精准细分还促进了基于数据的产品开发，优化定价策略，提升客户服务质量，以及进行有效的市场预测和趋势分析。这些因素共同增强了企业的市场竞争力，使其在竞争激烈的电商市场中保持领先地位。

高校学生群体在当前电商行业中被视为具有显著消费潜力的用户群体，这一现象可以从几个学术维度进行解析。首先，这一群体展现出不断增长的消费能力，得益于家庭经济支持和个人收入来源的多样化。其次，他们对新兴技术和流行趋势的高度敏感性及对在线购物平台的偏好，使他们成为电商创新和发展的关键驱动力。此外，高校学生在品牌忠诚度的初步形成阶段，这对电商品牌在塑造长期客户关系方面具有战略意义。同时，他们在社交媒体中的活跃度和影响力，为电商产品的有效传播提供了可能。因此电商企业维护好与高校学生用户群体的关系具有重要意义。

但在本次研究中，由于样本量的限制，得出的结论存在一定的误差。此外，提出的营销策略尚缺乏足够的专业深度和细化程度。鉴于这些局限性，未来的研究将致力于扩大样本规模和提升数据的代表性，以更准确地捕捉和分析这一用户群体的消费行为和偏好。同时，计划深入探究更为专业和具体的营销策略，确保研究成果能够更贴近实际应用，助力电商行业更有效地连接并服务于这一重要的消费群体。

参考文献：

[1] 张瑞.基于大数据的商业智能在电商数据分析中的应用[J].数字技术与应用，2021，39(06)：37-39.
[2] 张玉琨.基于K-Means聚类分析的电商学生客户细分研究[J].商场现代化,2022(08):33-35.
[3] 杨鹏飞.基于K-means聚类算法的鞋服电商消费者细分研究[J].中国皮革,2023,52(01):142-145.

经济管理前沿

Frontiers in Economics and Management

相关文章

基于K-Means算法的电商客户价值细分研究

Research on E-Commerce Customer Value Segmentation Based on K-Means Algorithm

引言

一、背景和意义

二、数据的来源与预处理

（一） 数据的来源

（二）数据的预处理

三、基于K-Means的淘宝用户消费行为数据分析

（一）K-Means算法

（二）数据分析

（1）运用手肘法确定K值

（2）聚类分析

四、结果的分析与建议

五、结语

参考文献：

（一）数据的来源