本文是通信工程论文,在传统随机森林算法训练出的模型上使用分类精度标准标定决策树的分类性能,从中筛选出分类性能较好的部分决策树,再使用多样性评价标准统计决策树的相似程度,按照聚类思想将决策树集群划分成多个簇,从中选取出相似度低的决策树重新组成新的随机森林子集作为最终模型,在减小模型存储和预测时间开销的同时保持甚至提高模型的整体分类性能。对算法进行分布式并行实现针对单机实现的传统随机森林算法在处理海量数据时存在计算能力和内存空间不足等问题,本文使用分布式计算框架Spark对改进算法进行并行实现。通过实验验证该算法具有良好的并行性能,可以提高大数据挖掘的效率。在信用评估阶段,信用评估模型根据输入数据的信息计算该客户出现违约的概率,再根据设定的阈值将其判断为违约客户或非违约客户。这种方式只是简单地将客户进行二分类,不能直观地展现客户的信用风险程度。
.....
第一章绪论
本文主要研究内容是从已有的用户贷款记录中挖掘出有效信息,建立贷前信用风险模型以对用户贷款潜在违约风险进行预测。论文研究工作主要包括了以下几个方面:(1)提出一种基于决策树约简的改进随机森林算法针对传统随机森林算法训练出的树集中存在分类性能不一以及决策树相似性较高的问题,本文提出一种基于决策树约简的改进随机森林算法TRRF。在传统随机森林算法训练出的模型上使用分类精度标准标定决策树的分类性能,从中筛选出分类性能较好的部分决策树,再使用多样性评价标准统计决策树的相似程度,按照聚类思想将决策树集群划分成多个簇,从中选取出相似度低的决策树重新组成新的随机森林子集作为最终模型,在减小模型存储和预测时间开销的同时保持甚至提高模型的整体分类性能。(2)构建贷前信用风险评估系统针对目前贷款申请中人工审批受主观因素影响、审批效率低、放款速度慢等问题,本文在基于决策树约简的改进随机森林算法和Spark分布式计算框架的基础上,构建一种P2P贷前信用风险评估系统。根据系统的需求设计了系统的整体架构,并从数据收集、数据预处理、模型训练和数据预测几个方面对系统进行说明;最后,通过来自LendingClub的信贷用户数据集对系统进行测试,验证系统的有效性和可行性。
.....
第二章相关理论知识介绍
2.1信用风险评估理论
传统信用风险的衡量标准是信贷用户是否违约,主要采用经验主义方法论[42]。其基本思想是通过建立违约信贷客户样本和正常信贷客户样本的判别公式实现对客户的二分类。主要包括5C分析法、LAPP原则、财务比率分析法、贴现法这四类。传统信用风险评估模型虽然操作简单,但存在明显的主观性,整体概括性较差,不能很好地融合定性和定量分析方法。随着现代金融理论的发展和信用风险度量工具的创新,研究者们将建模理论和数量化分析工具逐步引入到信用风险领域。在以违约概率度量信贷客户信用风险的框架下,提出一批信用风险评估模型,按照目前国内外的相关研究成果大致可分为统计模型和人工智能模型两大类[43]。该类方法主要是根据P2P平台提供的历史交易数据,结合相关的分类技术及方法构建信用风险评估模型,计算借款人的潜在违约概率,从而对客户进行分类或信用评级,评估借款人的预期还款能力和还款意愿。常见的统计模型包括线性概率模型、Logistic回归模型、Probit回归模型、决策树方法、支持向量机和k近邻判别方法等,而常见的人工智能模型则包括基于神经网络技术、遗传算法以及粗糙集理论等信用风险评估模型。
2.2随机森林算法
本章首先介绍了目前常用的信贷风险评估理论;其次介绍了随机森林相关的原理,包括其基分类器决策树的理论知识以及随机森林的构建过程和算法分析;接着介绍了集成学习中非常重要的多样性度量的概念和目前常见的度量方法,为下一章对算法的改进作铺垫;最后介绍了算法并行实现所需要的Spark分布式计算框架的知识,为后续基于Spark平台实现相关算法和搭建系统奠定了理论基础。异常值是指在原始数据采集过程中,由于软硬件出错,人为失误或者固有数据的变异使得它们的分布处于数据总体的分布区域或范围之外,这些数据也称为离群点。常见的异常值处理方法包括直接移除或填充,对异常值做稳健回归。对于异常值覆盖较多的特征,可以进行对数或高斯核转换。数据清理主要包括缺失值处理和异常值处理。缺失值在数据中用NaN表示,常见的缺失值处理方法有删除或者填充,删除操作虽然方便快捷,但对于某些重要特征必然会造成信息损失。
第三章改进的随机森林算法TRRF....................................................................................................................19
3.1基本定义及描述......................................................................................................................................19
3.2基于决策树约简的改进随机森林算法..................................................................................................23
3.3实验结果与分析......................................................................................................................................25
第四章TRRF算法并行化研究与实现................................................................................................................30
4.1随机森林并行化分析..............................................................................................................................30
4.2随机森林并行化实现..............................................................................................................................30
3.1基本定义及描述......................................................................................................................................19
3.2基于决策树约简的改进随机森林算法..................................................................................................23
3.3实验结果与分析......................................................................................................................................25
第四章TRRF算法并行化研究与实现................................................................................................................30
4.1随机森林并行化分析..............................................................................................................................30
4.2随机森林并行化实现..............................................................................................................................30
4.3改进随机森林并行化实现......................................................................................................................32
4.4实验结果与分析......................................................................................................................................34
第五章P2P贷前信用风险评估系统设计与实现................................................................................................38
5.1业务分析和系统设计..............................................................................................................................38
5.2数据采集及描述......................................................................................................................................39
5.3数据探索和预处理..................................................................................................................................40
5.3数据探索和预处理..................................................................................................................................40
....
第五章P2P贷前信用风险评估系统设计与实现
5.1业务分析和系统设计
系统的总体目标是借助上述章节的研究内容、P2P信贷用户数据和Spark大数据平台,构建一个贷前信用风险评估应用。该应用能够针对给定的投资策略来训练模型,并将该模型部署为常驻的可调用服务来处理输入的贷款申请。该服务能够针对每一笔贷款申请决定是接收还是拒绝,相比传统的人工审核方法不仅可以更加科学准确地做出判断,为贷款出借决策者提供参考,最大限度的提高公司的整体收益,而且能够极大地缩短审核时间,提高审核效率,加快放款速度。本文提出的P2P贷前信用风险评估系统主要包括数据采集、数据预处理、数据建模和信用评估四个部分,通过一系列的步骤完成原始数据提取到信用风险评估结果输出。系统结构如图5.1所示:系统基于处理后的数据集训练模型,使用测试数据集对模型进行评估,保存预测结果,最后将模型序列化到文件中。(4)在信用评估阶段,系统使用训练好的模型对输入的未标签数据进行预测,判断客户是否会出现违约,同时使用相关公式计算其对应的信用评分。
5.2数据采集及描述
一般情况下,原始数据在收集过程中往往存在信息不规整、数据点缺失和异常值问题,为了让原始数据可用于数据挖掘算法,需要先对其进行清理和修复。填充操作是根据其他的数据来填充缺失的数据,常见的填补方法包括零值、平均值或中值填充、近似替代、模型预测法填充等。通过对数据进行统计分析,可以发现输入特征中一共有57个特征有缺失值,部分特征的缺失值比重统计如表5.4所示。通过上述数据预处理操作得到了满足系统模型构建的数据,本节利用这些处理后的数据结合Spark分布式计算框架以及改进的随机森林算法搭建一个P2P贷前信用风险评估模型,使用测试数据进行模型性能评估,最后使用未标签的信贷用户数据进行信用评估,展示系统的风险评估效果。目前使用较多的办法是在违约概率的基础上对其进行信用评分,将概率转换为分值来量化客户的信用风险,从而准确地预测个人有关的信用风险并产生相对应的商业决策[54]。信用评分的计算方法如式(5.2)所示,可以看出,违约概率越低,得分越高,信用风险越低。#p#分页标题#e#
....
第六章总结与展望
国内P2P行业不容乐观,正常运营的P2P网贷平台显著减少。很多公司在发展的过程中,在贷款的审核、批准和授信方面忽略了申请人的借贷历史和还款能力,为了追求短期效益人为降低借贷风险标准,忽略信贷本身内在的风险隐患,借款人的信用风险得不到有效评估。(3)构建贷前信用风险评估系统针对目前贷款申请中人工审批受主观因素影响、审批效率低、放款速度慢等问题,本文结合上述的改进随机森林算法以及Spark大数据框架,设计出一种贷前信用风险评估系统,并从数据收集、数据预处理、模型训练和数据预测几个方面对系统进行说明。对算法进行分布式并行实现针对单机实现的传统随机森林算法在处理海量数据时存在计算能力和内存空间不足等问题,本文使用分布式计算框架Spark对改进算法进行并行实现。通过实验验证该算法具有良好的并行性能,可以提高大数据挖掘的效率。,Spark,评估系统
参考文献(略)
参考文献(略)