【摘 要】目前电信运营商面临着激烈的市场竞争。对电信运营商来说,客户即生命,如何保有客户是企业客户管理的重中之重。本文运用ID3算法对电信客户流失的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特征进行分析,采取针对性的措施挽留客户,达到亡羊补牢的效果。
【关键词】客户流失 数据挖掘 决策树 ID3算法
一、引言
随着2002年中国电信系统的分拆,中国电信行业一家垄断、一统天下的局面被打破,电信行业进入战国纷争时代,呈现出激烈的竞争态势。
相对于其他产业来说,电信行业是一个典型的前期固定投资巨大且在一定范围内投资资金多少不受用户量影响的行业。因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会摊得越薄,企业的利润就越大。客户资源对电信运营商来说其意义不言而喻,电信运营商之间的竞争实际上就是对客户资源的竞争。可以说,未来的电信行业,得客户者得天下。
数据挖掘在电信领域有着广泛的应用:计费分析、客户细分、电话欺诈、客户流失预警分析等等。客户流失预警分析是通过数据挖掘,发现和分析出客户的许多属性特征和行为特征,从而找到流失客户的特征,为企业挽留这类客户提供决策参考。
本文主要通过决策树算法中的ID3算法来实现客户流失的预警分析,找出了客户流失的特征,可帮助电信公司有针对性地改善客户关系,避免客户流失。
二、 数据挖掘和决策树
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程【3】;数据挖掘分析方法大致包括关联规则、分类、聚类、序列模式等。关联规则的目的是希望在事务数据库中发现经常共同出现的项目,推断隐藏在项目之间的相互关联的规则。分类是按照一组数据对象的特征给出其划分的过程,要求有已知分类的样本数据作为训练集,经过对训练集的学习得到关于分类的规律,从而对新数据进行分类。聚类是利用聚类技术识别一组数据对象的内在规则,将对象聚合成相似的类,以导出数据的分布规律。聚类与分类的差别在于它不需要训练样本,是一种无监督的学习。序列模式的目的也是为了挖掘数据之间的联系,但它主要关注于分析挖掘和时间顺序相关的模式。