本文是电力论文,(2)结合DPC密度峰值算法,基于加权欧氏距离的相似度矩阵的计算,通过计算所有样本点的局部密度i和高密度距离i以获得簇中心选择指数来确定初始簇中心点,对原始K-means聚类算法的初始聚类中心优化研究。将优化的KD-means聚类算法和原始K-means聚类算法进行F值和Calinski-Harabaz指数,轮廓系数对比,获得最优聚类效果,研究优化了原始K-means聚类算法模型。(3)针对聚类用户群,研究分析CRFMO各特征聚类中心值,勾画特征雷达图,根据不同用户类别的表现特征差异,为电力用户价值分群,制定最合理的价值响应策略,优化售电侧。并设计开发电力用户缴费数据的原型系统,对电力用户分群结果可视化,为电力企业直观展示用户特点。基于KD-means优化的电力用户缴费行为分析。第五章:电力缴费行为数据分析系统实现。以建立的电力缴费用户价值分群分析为基础,采用微服务架构,开发基于电力用户缴费行为数据分析系统,对聚类结果特征,电力用户行为价值进行系统分析展示。基于上述研究成果,设计并开发基于电力用户缴费数据分析的用户行为分析原型系统,直观高效助力电力企业做好电力用户优质服务工作,提升用户服务质量,优化售电侧。
......
1绪论
本文基于现有的营销业务应用系统、95598客服系统等,通过数据挖掘的方法和实践,通过构建电力缴费用户特征评价模型的思路,研究思路图如图1.1所示。建立数据挖掘模型分析电力用户缴费、欠费行为、缴费方式及信息需求偏好,通过数据采集、数据预处理、改进CRFMO用户价值模型的构建、建立基于K-means的电力用户分群及行为价值分析模型,并进一步提出结合DPC优化初始聚类中心的优化模型,模型聚类得到电力缴费用户价值分群,并对不同用户群体进行用户价值分析,针对不同价值用户群体,制定合理、精细化的营销策略,从而提升用户服务体验和满意度,达到吸引用户增加电力、电量消费的目标。论文组织结构安排如下:第一章:绪论。首先搜集相关文献资料并进行分析,论述了电力用户行为数据分析的研究背景及意义,然后对国内外学者的研究现状及成果进行分析介绍,提出本文的研究意义与目的,最后对本文的研究内容和组织结构进行了描述安排。第二章:相关技术及理论研究。首先对用户行为数据分析核心技术数据挖掘进行介绍,包括其概念,过程,方法,任务等,其次介绍了对用户行为细分的聚类算法相关理论,结合电力用户数据特点需求,选取分析模型,最后介绍用户价值聚类评价相关理论知识。第三章:基于K-means的电力用户缴费行为分析。首先对营销业务系统和95598客户系统的沉淀数据清洗转化,进行数据预处理,其次根据电力缴费用户的特点,对其传统RFM消费者价值分析模型改进,构建CRFMO电力缴费用户综合价值评价模型;最后基于电力缴费用户CRFMO改进模型,使用K-means算法进行用户初步聚类分群。
代表性模型
..............
2相关技术与理论研究
2.1数据挖掘相关技术研究
这个模型有两大目的:一方面根据输入变量(即欠费次数和投诉次数、缴费次数、缴费金额)来预测输出(即用户类别),另一方面是通过模型来理解输出变量与所有输入变量之间的关系。数据挖掘的流程步骤是非线性的、迭代反复的,会在过程中的某几步循环,存在重新返回初始界定数据挖掘问题。数据挖掘一般流程如图2.2所示,数据挖掘流程不局限于特定的算法或业务,解决所分析的问题是所有数据挖掘流程的根本目标。下面列举典型的数据挖掘工作步骤:(1)了解数据挖掘项目的目的。研究的问题及利益相关者期望所得结果,分析是一次性的还是一个可持续的过程(2)获取分析中使用的数据集。通常涉及从大型数据库进行随机抽样,获取分析中使用的样本数据,分析哪些数据有用,还涉及把来自不同数据库或数据源的数据整合到一起。(3)探索、清洗和预处理数据。此步骤包含数据的筛选,验证数据合理性,缺失数据的处理,数据值取值范围是否合理,异常值处理,主成分分析,标准化数据,属性选择等。(4)按需降低数据维度。降维包括剔除无用变量、转换变量和创建新变量,确保每个变量的含义以及它在模型中是否合理。(5)确定数据挖掘任务(分类、预测还是聚类等)。将一般问题或步骤1中的问题转化为更具体的统计问题.(6)数据分割(用于监督学习任务)。监督学习任务中,如分类或预测,可将数据集分割成训练集、验证集和测试集三个部分。(7)选择要使用的数据挖掘技术(回归、神经网络、系统聚类、特征选择、文本挖掘等)。(8)使用算法执行任务。通常是一个迭代过程尝试多种形式,并且经常使用同一算法的多种形式,在算法中选取不同的变量或设定。(9)解释算法的结果。包括选择出最佳算法,并且在可能的情况下,在测试集上测试最终的算法,测试算法的效果。(10)部署模型。本步骤涉及将模型整合到可操作的系统中通过实际数据产生决策或行动。
2.2聚类分析算法研究
本章介绍了电力用户行为数据分析所用到的相关技术方法。作为后续研究的理论支撑,首先阐述数据挖掘的原理,基于此引出数据挖掘一般步骤流程,并对所用的方法进行总结;其次对用户行为数据分析常用的聚类分析算法做了进一步研究,对其距离的度量方法,各类型聚类算法方法特点进行对比总结,结合甘肃省电力用户数据特点和需求,采用可解释、易实现的K-means聚类方法进行电力用户缴费行为数据分析研究;最后总结了聚类分析算法的评估标准,为后续算法模型优化选取提供依据数据挖掘流程始于先验知识(业务数据的认知阶段),终于后验知识(知识获取决策阶段),后者是通过该流程获得的对业务的新认知。正如所有定量分析方法一样,数据挖掘流程能够指出数据集中假的、不相关的模式,并非所有发现的模式都能带来新的认识,还需要数据挖掘者自己去伪存真,排除不相关的模式,鉴定有意义的信息。数据挖据是从数据出发,寻找数据中的有用模式,数据的形式可以由百万条具有上千个变量的数组、数值、矩阵等观测值组成。数据挖掘也被称为知识发现、机器学习、预测分析[34],每个术语在不同的背景之下有着不同的含义,具有不同的标准。为了挖掘数据中有意义且有用的结构,进行数据挖掘时会使用一些专业的计算方法,同时在数据挖掘过程中与以下众多领域紧密相连:数据库系统、数据清理、可视化、探索性数据分析、性能评估。数据挖掘流程通过一系列迭代的处理过程发现数据中的模式和实用关系,从而根据性能选择某一系列任务,获得最优输出[35-36]。
数据挖掘流程
3基于K-means的电力用户缴费行为分析...................................................................17
3.1电力用户缴费行为数据预处理...........................................................................17
3.2基于电力用户价值分析的CRFMO模型构建...................................................22
3.3基于K-means聚类算法进行用户分群..............................................................27
4基于KD-means优化的电力用户缴费行为分析........................................................34
4.1密度峰值发现聚类算法.......................................................................................34
4.2密度峰值优化初始中心的K-means聚类算法..................................................37
4.3电力缴费用户价值聚类分群结果分析...............................................................43
4.4本章小结...............................................................................................................45
3.1电力用户缴费行为数据预处理...........................................................................17
3.2基于电力用户价值分析的CRFMO模型构建...................................................22
3.3基于K-means聚类算法进行用户分群..............................................................27
4基于KD-means优化的电力用户缴费行为分析........................................................34
4.1密度峰值发现聚类算法.......................................................................................34
4.2密度峰值优化初始中心的K-means聚类算法..................................................37
4.3电力缴费用户价值聚类分群结果分析...............................................................43
4.4本章小结...............................................................................................................45
5电力缴费行为数据分析系统实现................................................................................46
5.1系统框架总体介绍...............................................................................................46
5.2系统展示...............................................................................................................49
5.2系统展示...............................................................................................................49
........
5电力缴费行为数据分析系统实现
5.1系统框架总体介绍
本文围绕电力缴费用户行为数据分析,利用数据挖掘,对电力用户群聚类分群,总结分析用户群特征价值。系统的实现能够帮助电力企业直观了解电力用户群特征,了解用户价值,制定最合理的价值响应策略,优化售电侧。研究内容包括提出适应电力缴费数据的.根据第四章电力用户分群结果,对其进行可视化系统界面实现展示。图5.1展示了系统总体框架。从95598客服、营销等系统中获取历史沉淀原始数据,对原始数据进行数据去空、去重、标准化等数据预处理后,存储在数据库中,系统实现具备行为分析,用户数据管理,营销策略和数据推送等多个服务。技术层面采用SpringCloud中的部分核心技术+MySQL+Redis等技术实现,通过基于SpringCloud的微服务架构为电力用户缴费数据平台的多个服务提供支持,可提供高可靠、高可用的Web服务。在整个过程中服务安全、子网安全、服务熔断与降级、精准规范等贯穿始终,为所有微服务“保驾护航”[51-54]。业务模块主要包括:(1)数据的采集、数据去重、去空、标准化;(2)对数据、模型的持久化存储及缓存;(3)进行聚类并分群,完成用户价值分析;(4)营销策略的制定和推送;(5)前后端交互模块。(1)基于Angular7的前端系统可以访问本地WebService,也可访问云服务器上部署的WebService;(2)本地WebService是基于SpringCloud框架的电力用户缴费大数据平台后端系统;(3)用于持久化存储数据的MySQL放置在专属的服务器上;(4)Redis缓存在本地和云服务器的WebService上均有部署;(5)通过配置同一个GiteeAccount,使本地与云服务器上的电力用户缴费大数据平台后端系统的代码相关联,在本地开发完,推送到云服务器上的Gitee,在云服务上更新最新代码,可用ApacheMaven直接打包运行,极大简化以前的“本地打包,推送到服务器再运行”的部署流程,提升部署效率。(6)云服务器从Gitee上克隆下代码后进行打包配置,通过访问MySQL和Redis来响应前端的数据请求,为整个系统提供强有力的支撑,是系统的核心。
5.2系统展示
通过系统的分析和呈现,直观的展示电力企业用户特点,助力电力企业开展市场购售电侧改革、制定高效售电营销策略。电力缴费用户行为数据分析系统页面展示如下。图5.4系统首页为电力缴费系统的整体展示,内有电力用户数量统计,用电量及95598工单信息中的用户投诉热词等多个模块。图5.5电力用户信息子页收录用户信息,对用户编号、用电缴费信息等进行展示。图5.6系统电力用户分群页面,将本文基于聚类算法的用户分群结果,对各用户群的数目及各特征中心及勾画的特征图进行展示。图5.7电力用户营销响应页面对分析得到各电力用户群的特征特点及响应策略进行直观展示。本章采用微服务架构对其电力用户聚类分群价值分析结果进行可视化系统界面实现展示。主要对系统框架,以及电力用户信息展示、聚类算法用户分群结果展示,用户价值分析等多个功能模块进行设计描述。通过系统展示,方便电力企业直观了解电力用户群特征,了解用户价值,制定最合理的价值响应策略。这对国家电网等电力企业提高国内用户服务质量,优化售电侧,提升海内外市场核心竞争力具有十分重要的意义。特征价值模型,对K-means聚类算法初始聚类中心随机问题,提出DPC密度峰值算法优化的KD-means聚类算法模型对聚类效果优化。具体完成研究如下:(1)对原始数据集中缺失空值、异常数据、重复数据进行数据清洗集成,得到高质量数据。通过RFM价值模型,结合电力行业需求以及电力用户数据特征,提取投诉次数与欠费次数之和C、最近一次缴费时间与截止时间的间隔R、缴费次数F、缴费总额M和欠费额度在总电费中的占比O这5个特征,构建适应电力用户价值分析的CRFMO特征价值模型。
..............
6结论与展望
本文在电力缴费数据用户行为数据研究方面取得了一定的研究成果,但限于时间和作者水平,导致文中有许多不足之处,仍有很多方面需要进行深入研究完善,将本文中需要进一步研究的问题归纳总结如下:(1)本文数据源来自国网营销业务应用系统、95598客服系统等积累的历史数据,该数据集源自实际项目需求,高质量的电力用户数据是进行有效挖掘的前提。主要对电力用户信息展示、聚类算法用户分群结果展示,用户价值分析等多个功能模块。通过系统整体展示,方便电力企业直观了解电力用户群特征,了解用户价值,制定最合理的价值响应策略,提升用户体验度,优化售电侧。本文在建模前已对数据进行了预处理,但数据质量仍有进一步提升空间。需要科研人员发现数据完整性更好、数据冗余更少、属性之间的相关性更小的数据处理方法,以及在数据激增之后对超大数据集的自动化处理方法。(2)本文研究了电力用户缴费行为数据分析,对电力用户价值聚类分群,并未在关联分析营销推荐方面深入研究,结合关联分析和用户价值对电网营销策略进行个性化信息推送方面值得科研人员进一步研究。(3)本文在对电力用户行为数据分析构建的价值模型,聚类分群模型,同样也适应具有相似数据类型的研究领域,如金融用户行为价值分析,电信用户价值分群,未来将考虑将这些方法推广至更多领域,实现更广泛的应用。
参考文献(略)