商业银行的个人信用评估研究院基于PCA-GA-BP算法

(整期优先)网络出版时间:2014-11-21
/ 2

商业银行的个人信用评估研究院基于PCA-GA-BP算法

王天擎

王天擎WANGTian-qing曰刘小清LIUXiao-qing(五邑大学经济管理学院,江门529020)(SchoolofEconomicsandManagement,WuyiUniversity,Jiangmen529020,China)

摘要院随着个人消费贷款的普及,贷款人的个人信用评估变得尤为重要。本文选取德国和澳大利亚某商业银行的个人信贷数据为样本数据,采用主成分分析提取样本数据的主成分,通过遗传算法优化神经网络的网络结构、初始连接权值和阀值,然后将优化的神经网络算法用于个人信用评估。与其他算法的准确率比较的结果表明,基于主成分分析—遗传算法—神经网络算法的个人信用评估准确率要高,而且模型的网络结构得到优化,运算时间也有缩短。

Abstract:ThispaperselectsthepersonalcreditdataofacommercialbankinGermanyandAustralia,extractsthemaincomponentbyprincipalcomponentanalysis,andthenoptimizesnetworkstructure,initialconnectionweightsandthresholdsofneuralnetworkbygeneticalgorithm,finally,accordingtothisimprovedneuralnetworktechnology,evaluatespersonalcredit.Finally,itcomparestheaccuracybasedonthisalgorithmtotheseaccuraciesbasedonotheralgorithms.Accordingtotheresults,theaccuracybasedonthisalgorithmisbetterthantheseaccuraciesbasedonotheralgorithms.关键词院商业银行;个人信用评估;主成分分析;遗传算法;BP算法Keywords:businessbank;personalcreditevaluation;PCA;GA;BP中图分类号院F22;F830.5文献标识码院A文章编号院1006-4311(2014)31-0161-03

0引言随着社会经济的发展,个人消费贷款越来越普及,如何评估贷款人的信用是各商业银行亟需解决的问题。个人信用评估是对可能引起信用风险的因素进行定性分析、定量计算,以测算消费者的违约概率,可通过现有的样本数据建立模型预测未来申请人的信用行为,以区分出“好”客户和“坏”客户[1](即能否还本付息),它属于多属性决策的分类问题。目前人们已经提出多种分类方法[1-6],并取得一定的应用效果,但由于数据属性较多,属性间的自相关性等各种实际情况使得信用评估问题仍未得到有效解决。因此研究有效的信用评估方法具有理论意义和实用价值。

近年来,以神经网络为代表的新型客户分类技术得到了广泛应用。BP(BackPropagation)是目前应用最广泛的神经网络模型之一,它是一种按误差逆传播算法训练的多层前馈网络,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。但是,BP神经网络有诸如收敛速度慢、不能保证收敛到全局最小点、网络的中间层及其单元数选取无理论指导以及网络学习和记忆的不稳定性等缺陷。于是,人们提出了许多改进算法,如用具有很强的全局优化能力的遗传算法(GeneticAlgorithm,GA)优化神经网络的初始权值和阈值,以保证神经网络更精确地输出预测函数[7]。

事实上,我们需要信用评估的数据属性很多(如行为人的自然属性、社会属性、行为属性等),每个属性都包含多个维度,且变量间具有相关性,若直接对样本数据进行评估,则需要较好的硬件基础和较长的模型运行时间。而主成分分析(PrincipalComponentAnalysis,PAC)在处理信息重叠问题上具有巨大的优势和潜力,能更好地抓住事物的主要矛盾,大大缩减信用评估问题的空间维度,使模型得到简化。

基于此,本文将PCA-GA-BP三者结合,提出一种基于主成分分析和遗传算法优化神经网络的个人信用评估方法,即利用主成分分析在处理大数据量、消除冗余信息等方面的优势,减少BP网络训练数据的维度;利用遗传算法来训练BP网络的权重和阈值形成遗传算法优化的神经网络模型(GA-BP),以克服BP网络的不足。

1PCA-GA-BP的基本原理1.1GA-BP网络预测模型一般BP网络采用3层结构:输入层的个数由输入数据的特征维数决定;输出层的个数由输出状态数确定;隐含层节点个数根据经验公式计算,即p=姨m+l+a,a为1~10的常数,m个输入节点,l个输出节点。BP网络的具体结构如图1所示。

因神经网络权值及阈值的随机初始化导致网络泛化能力不强,易陷入极小值,故需寻求最优权值及阈值。已有的研究成果表明GA优化神经网络具有很好的可行性。

GA应用于神经网络的一个重要方面是用来优化神经网络的权重和阈值。采用GA训练神经网络的权值和阈值的优点在于不使用梯度信息、搜索效率高、具有很强的鲁棒性,可以克服传统BP算法易陷入局部极小和收敛速度慢的缺点。GA-BP模型通过设置相关参数和种群初始化,确定适应度函数、选择、交叉、变异等操作,当达到最大进化代数或连续几个最大适应值没有变化时,将最优个体反编码为BP网络的连接权值和阀值。采用此时的最优初始连接权值和阈值进行重新训练,建立最优信用评估模型预测个人信用,并输出最优预测结果。

1.2PCA提取主成分为避免漏选对因变量有重要影响的因素,通常尽可能多地选择样本数据,而且实际中属性间或多或少地存在相关性。当这些因素维度较高或属性的重叠性较高时,把它们作为BP的输入,会增加模型的输入维数,使网络结构复杂,影响模型的预测性能。

个人信用评估问题属于多属性决策问题,PCA的优势在于能够有效实现知识约减、去除属性相关性。运用PCA对GA-BP的输入数据进行降维,简化GA-BP的输入数据,在信息损失不太多的情况下,用少数几个主成分替代原始变量,以减少GA-BP的学习任务、加速其学习进程。

因个人信用样本数据具有不同量纲,且属性也相差悬殊,故需对其进行数据标准化处理:xi*=xi-E(xi)姨var(xi),i=1,2,…p其中,var(xi)=滓ii(i=1,2,…p),p为样本数据的维数。将样本数据归一化为均值为0、方差为1的数据而变成标准化样本。数据预处理后进行主成分分析,具体方法参见文献[8]。

1.3PCA-GA-BP模型构建在模型的构建过程中,首先通过PCA法去除GA-BP模型输入数据的属性相关性,提取主成分,然后通过这些主分量来进行GA-BP学习与预测信用类别,最终获得结果。具体过程如图2所示。

2实证分析本文采用德国某商业银行(下文简称德国数据)和澳大利亚某商业银行(下文简称澳大利亚数据)的个人信贷数据(部分数据)进行实证研究。德国数据共有1000个样本,好客户样本700个、坏客户样本300个,每个样本20个属性;澳大利亚数据总共有690个样本,好客户样本383个、坏客户样本307个,每个样本14个属性。考虑模型输入的方便性,这两个数据集的所有属性都换成代号。

按照Kaiser原则,我们选取特征值大于1的主成分,其余舍去。本文用PCA提取的主成分结果见表1。

德国信用数据的8个主成分分别是:现有支票账户、信贷期限、信贷历史纪录、贷款目的、贷款金额、储蓄存款账户、分期付款金额占可支配收入比率、资产,对应的代号分别为:v1、v2、v3、v4、v5、v6、v9和v19;而澳大利亚信用数据的5个主成分代号分别是:v1、v3、v4、v5和v7。

现定义GA的运行参数,具体数据见表2。

另外,根据经验,BP网络的隐含层节点数取p=姨m+l+a,a为1~10的常数,即德国数据、澳大利亚数据分别取[4,13],[3,12]中任意一个整数即可,本文取隐含层节点为10和9。

下面是模型运行结果。随着遗传代数的增加,这两组数据的误差变化如图3所示。

为证明本算法的有效性,用matlab中的SVM工具箱、决策树工具箱运行本文数据,各模型的分类精度比较见表3。由表3可知,对于德国数据和澳大利亚数据,基于PCA-GA-BP的个人信用评估得到的训练精度和测试精度均比其他算法要好,而且基于PCA-GA-BP算法的模型预测精度比基于BP、GA-BP预测精度有了一定程度的提高。另外,本文还研究了有关模型的网络结构和模型运算时间,结果如表4所示。由表4可见,与BP和GA-BP模型相比,PCA-GA-BP模型结构最简单、运算时间最短、模型效率最高。

3结论为了对商业银行的个人信用进行评估,提出了PCAGA-BP组合优化算法,并在计算机上予以实现。数值算例仿真结果表明,本文算法具有应用价值,能够有效地提高训练样本分类的正确率及待判样本分类的准确率,同时能减少运算时间、提高运算效率,为商业银行的个人信用评估提供了一种新的高效计算方法。

参考文献院[1]郭春香,李旭升.贝叶斯网络个人信用评估模型[J].系统管理学报,2009,18(3):249-254,260.[2]肖智,李文娟.RS-ANN在消费信贷个人信用评估中的实证研究[J].软科学,2011,25(4):141-144.[3]杜婷.基于粗糙集支持向量机的个人信用评估模型[J].统计与决策,2012(1):94-96.[4]庞素琳,巩吉璋.C5.0分类算法及在银行个人信用评级中的应用[J].系统工程理论与实践,2009,29(12):94-104.[5]YAOPing,WUChong,YAOMinghui.CreditRiskAssessmentModelofCommercialBanksBasedonFuzzyNeuralNetwork[C]////Proceedingsofthe6thInternationalSymposiumonNeuralNetworksonAdvancesinNeuralNetworks.Berlin,Heidelberg:Springer-Verlag,2009:976-985.[6]王凯,贺国平,侯伟真.支持向量机在商业银行客户管理中的应用研究[J].微电子学与计算机,2007,24(1):52-54,58.[7]白杨.基于遗传神经网络的网格资源预测模型[J].计算机仿真,2012,29(4):243-246.[8]谢中华.MATLAB统计分析与应用:40个案例分析[M].北京:北京航空航天大学出版社,2010:354-373.