数据挖掘在银行个人客户信用等级分类中的应用分析
黄 觅(北京理工大学管理与经济学院,北京100081)
摘 要:从银行客户信用等级分类入手,分析了客户价值和分类的重要性,并对某商业银行客户信用等级分类指标体系研究,采用粗糙集数据挖掘理论知识,为银行客户信用等级分类提供决策支持.
关键词:客户分类;数据挖掘;粗糙集
中图分类号:F830.49 文献标识码:A 文章编号:1672-3198(2009)22-0173-03
0 前言
基于IT技术的电子商务正在改变着社会经济中各个行业的传统经营模式。在激烈的行业竞争中,要求企业的核心经营理念从“以产品为中心”转向“以客户为中心”。客户关系管理(CRM)为这个问题提供了解决方案。客户关系管理的最终目的即是最大化客户价值,并对客户进行分类。伴随着银行业的发展,个人信贷逐渐成为银行中的一个重要的盈利点。信用卡,房贷,车贷等各种个人商业贷款得到普及,银行个人客户也逐渐呈现出多元化,细分化的特点。银行要提高利润率,控制风险,必须主动进行客户信用评价和贷款申请分类,从而采取差异化的市场营销和客户服务策略.
1 基本概念
对于数据挖掘(DM,datamining),一种比较公认的定义是W.J.Frawley,G.Piatetsky-Shapiro等人提出的:数据挖掘就是从大型数据库中的数据中提取人们感兴趣的知识。这些知识是隐含的,事业位置的潜在有用信息,提取的知识表现为概念(concepts),规则(rules),规律(regulari-ties),模式(patterns)等形式。而更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中找模式的决策支持过程。它是一个利用各种工具在海量数据中发现模型和数据间关系的过程。数据挖掘技术把人们对数据的应用,从低层次的末端查询提高到为决策层提供支持.
在国内,从1993年开始,一些基金和企业开始自主数据挖掘和知识发现的研究。当前数据挖掘和知识发现研究方兴未艾。数据挖掘算法和技术可概括地分为下面六种使用类型.
关联发现-典型例子是市场菜篮子分析,此分析与一组产品相关联。通过挖掘事务数据可派生关联规则,利用此规则可以了解客户的行为.
聚类分析,分类,神经网路,规则发现和决策,顺序模式和顺序序列.
2 利用数据挖掘技术进行分类步骤和方法选用
传统上客户细分的依据是客户的统计学特征(社会个人信息,交易记录等),分类是数据挖掘领域中的一类重要问题。许多挖掘问题本质上可以等价地转化为分类问题.
分类可以描述如下:大量的样本构成输入数据集,即训练集。每个样本又多个属性,其中属性及可以是连续属性,也可以是离散属性。其中有一个属性被称为类别属性,用来标明该样本所属的类别。本次研究中关心的是,到底有哪些属性,它们是怎样决定了一个个人贷款申请是高风险的还是低风险的.
一旦此模型建立就可以划分一个新的风险类别.
数据分类是一个两步过程:第一步,建立一个模型,描述预定的数据类集或概念集。通过分析由属性描述的数据库元组来构造模型。假定每个元组属于一个预定义的类,由一个称为类标号属性的属性确定.
第二步,使用模型进行分类。首先评估模型的预测准确率。这些样本随机选取,并独立于训练样本.
客户细分是一种科学的分析方法,它把客户分成一些客户群,在客户群中,客户的消费特征(资产等特征)一些决策性属性值非常类似。而在群与群之间,群与群相互独立,特征差异较大。银行可以对不同的客户信用值进行测评,分类,从而控制信贷风险。基于数据挖掘的客户分类是数据挖掘技术是数据挖掘技术和银行业丰富客户数据资源的完美结合,其特点是充分利用银行内部数据,细分维度多,因此可以帮助银行多层面、多角度地了解客户的差异和资产状况,从而对客户的信用等级进行分类.
3 实例分析
现在某一商业银行正在准备对信息系统进行改革,并且准备对个人贷款用户采取发放贷款证的方法,即只有通过信用审核的个人(家庭)才能获得贷款证,有资质申请贷款。以此为例,本文通过调研,通过选择简化分类属性,采用粗糙集等数据挖掘方法在为客户分类提供决策支持.
3.1 指标评价统计数据表
根据银行内已有的专家知识库中的专家评价规则,为了简化起见,本文将影响客户价值评价的因素的状况只分为两档,具体见表1。接下来就以这11组数据来说明这些指标评价规则的获取.
3.2 属性约简
上表中,论域U={1,2,3,4,5,6,7,8,9,10},条件属性C={个人年收入,家庭人均年收入,家庭负债率,固定资产,其他易变现资产,工作稳定情况,社会关系,信用度,年龄,婚姻状况},决策属性D={分类结果}。为了方便起见,在条件属性中用1代表好(或高或稳定),用0代表差(或低或不稳定),在决策属性中,用1代表分类A,0代表分类B。将各条件属性分别用1,2,3,4,5,6,7,8,9,10来代替,决策属性用X来代替,就得到数字化的表,如表2所示.
这样,条件属性C={1,2,3,4,5,6,7,8,9,10},决策属性D={X}.
接下来,再对表2进行属性约简.
从约简结果得到,属性2,3,4,7,8,9,10去掉后,都并没有改变系统