【编者按】:网学网毕业论文写作为您提供基于GIS与空间关联规则数据挖掘在森林病虫害预测中的应用初探参考,解决您在基于GIS与空间关联规则数据挖掘在森林病虫害预测中的应用初探学习中工作中的难题,参考学习。
转载请注明来源:毕业论文 需要其他论文可去论文范文查找。免费毕业论文下载基于GIS与空间关联规则数据挖掘在森林病虫害预测中的应用初探 摘要:本文将空间关联规则数据挖掘用于森林病虫害分析和预测领域,并进行了初步探索,利用空间关联规则算法对森林病虫害的历史数据进行了分析,建立了决策知识库。结合GIS建立了森林病虫害预测模型,并论述了对森林病虫害预测的整个过程。
关键词:GIS 空间数据挖掘 空间关联规则
Abstract: In this paper, spatial association rules data mining is used in analysis and forecast the forest pest disaster, and has carried on the preliminary exploration. With Spatial Association Rules algorithm, the paper has analyzed the data of the forest pest disaster and built the decision-making knowledge Database. Based on GIS, the prediction model has been established for the forest pest disaster, and the whole process of the forest pests disaster forecast has been discussed.
Keywords: GIS, Spatial Data Mining, Spatial Association Rules
1. 前言
地理信息系统(GIS)是以采集、贮存、管理、分析和描述整个或部分地球表面与空间和地理分布有关的数据的空间信息系统。在GIS应用和发展过程中,空间数据的数量在飞快的增长,但目前GIS所提供的分析功能无法析取隐含模式和规律,它的逻辑结构和智能层次不能满足解决复杂空间决策问题的需要,特别是那些非结构化的问题。数据挖掘是一个多学科交叉领域,已经延伸到对空间数据的挖掘,被称为空间数据挖掘和知识发现(SDMKD)[1]。空间数据挖掘可以发现的基本知识类型有空间分布规律、空间分类规则、空间区分规则、空间关联规则等等。所以,把数据挖掘和GIS结合起来,对空间数据进行挖掘将有助于发现海量空间数据中隐藏的知识和规律。
2. 问题的提出
我国森林覆盖率较低,人均占有森林资源很少,同时也是世界上森林病虫害发生较为严重的国家。目前在国外已广泛应用森林病虫害辅助决策支持系统,实现了数据管理、分析的科学化和自动化。但我国森林病虫害监测预报主要还是采用传统的地面调查方式,这种方式主要有以下不足:①病虫害情调查耗时长,不全面;②虫情数据的采集没有实现自动化,成本较高,严重地影响了预测预报工作的质量和效率;③灾害预报技术零星分散,不成体系;④灾害预测预报不能实现准确的空间定位,导致辅助决策能力有限;⑤虽然已有大量的预测预报模型,但它们多是建立在一般统计学方法基础上,测报的结果不能实现空间显示。
利用GIS与空间数据挖掘技术,建立森林病虫害预报决策支持系统,可以实现数据管理、分析的科学化和自动化,并能够把将要发生森林病虫害的区域以可视化的方式显示给用户。
3. 预测模型的设计
3.1. 空间关联规则挖掘算法
为了发现反映空间对象结构以及空间与空间之间、空间与非空间之间的关联规则,设置了一组空间谓词,它们即是空间关系表示,比如Close_to ,空间关联规则就是表示对象/谓词之间的关系。把发现空间关联知识的方法聚焦在实体的空间和非空间特性上,并把空间关联规则表示为如下形式:“A → B(c%)”,这里A 、B是空间谓词集合。也就是说,空间关联规则采用空间和非空间谓词表达对象之间的关联关系。
定义 空间关联规则是如下形式的规则:
P1 ∧P2∧P3∧……∧Pm → Q1∧Q2∧Q3∧……∧Qn (s%,c%)
其中:P1 ,……,Pm,Q1, ……,Qn中至少有一个是空间谓词。c%是规则的可信度,其含义是满足规则前件的对象中有c%的对象同时也满足规则的后件。令P=P1 ∧……∧Pm,谓词合取P在集合S中的支持度定义为S中满足P的对象数量与S中对象总数之比,记为σ(P/S);规则P → Q在S中的信任度,定义为σ(P∧Q/S)与σ(P /S)之比,即S中满足P的元素同时满足Q的概率,记为 Ψ(P → Q/S)[2]。
空间关联规则按不同的情况分为以下几类:基于规则中数据的尺度关系,关联规则分为单尺度和多尺度空间关联规则;基于规则中数据所跨越的层次,关联规则分为单层空间和多层空间关联规则;基于规则中数据所跨越的维数,关联规则可以分为单维和多维空间关联规则。
空间关联规则是从空间数据库中挖掘出有价值描述的数据项之间的相互联系的知识,基本形式如下:
前提是由空间谓词和非空间谓词组成,结论是非空间谓词:
Is_a(X, house) ∧close_to(X, beach) → is_expensive(X)
在空间关联规则中可以包含不同的空间谓词,这些空间谓词可以表示空间物体的各种不同的拓扑关系,比如:不相交、相交、覆盖、邻接、包含等,拓扑关系如图1所示:
将空间数据层与其附属属性数据表连接进行空间关联规则的挖掘,具体步骤如下[3]:
(1) 根据要求,选择支持度和置信度进行数据挖掘,从单个数据层的n个附属属性中发现具有p(p< n)个不同谓词的规则;
(2) 利用(1)中的设定的规则,在多个数据层及其附属属性数据集中进行多层空间关联规则的挖掘;
(3) 利用(2)中挖掘的单层空间关联规则进行连接生成多层关联规则;
(4) 输出多层空间关联规则。
3.2. 数据准备和空间化
空间数据挖掘的对象是空间数据, GIS所管理空间数据的方式与一般数据库技术的发展紧密联系,最初采用基于文件管理的方式,目前有的系统采用文件与关系数据库混合管理模式,有的采用全关系型空间数据库管理模式,随着面向对象技术与数据库技术的结合,越来越多的面向对象空间数据模型及实现系统用来管理空间数据库。在实际应用中,为了便于操作,可以将待挖掘的空间对象的各个属性置于地理信息数据库的数据表中。空间关联规则数据挖掘的对象数据分为基础数据和特性数据,特性数据是基础数据的属性描述,如表1,表2所示:
表1基础数据表
属性 属性说明
境界 区域边界信息和属性信息等
水系 河流、湖泊、水库、渠道等
交通 铁路,公路,小路,水路等
周围居民 居民居住区,集聚点等
表2 特性数据表
属性 属性说明
植被 描述森林植被覆盖,见表3植被属性表;
季节 描述地区一段时间的气候情况, 比如简单的可分为:春、夏、秋、冬等;
降水 描述地区的降水量,比如简单的可分为:大、中、小;
温度 描述地区的温度,比如简单的可分为:高、中、低;
湿度 描述地区的湿度,比如简单的可分为:大、中、小;
日照 描述地区的日照条件,比如简单的有:日照时间,日照角度等;
土壤 描述土壤属性,比如土壤类型、土壤成分、土壤退化类型等;
郁闭度 指森林中乔木树冠遮蔽地面的程度,反映林分密度的指标。比如中度郁闭,密郁闭,低郁闭等;
特性数据表中植被属性如表3所示:
表3 植被属性表
植被属性 属性说明
树种组成 说明某一林分中各个树种所占的比重。比重的大小以各树种的蓄积量为准。如各树种的直径相差不大,也可以其株数多少为准。
树体 树体指树干高度大小,树冠中大枝数量多少,排列均衡程度,大小枝的从属关系等,简单得可分为树体高、矮等;
树龄 每一龄级的年龄范围由技术规程规定,根据树木生长快慢,一个龄级的年龄范围划分为5年,10年或20年;
在数据空间化的过程中,把基础数据表中的空间数据存储到空间数据库中,把特性数据表中基础数据的属性描述信息存放到数据库中,同时把对森林病虫害有直接影响的植被属性数据存放到数据库中。
把历年病虫害发生的详细信息加载到空间数据库,为下一步的空间关联规则数据挖掘提供数据基础。
3.3. 预测模型框架设计
预测模型框架结构如图2所示:
预测模型结构图中的数据挖掘模块,主要通过SDE数据库引擎对空间数据库访问,采用关联规则挖掘算法对所得到的历年灾害数据样本进行分析,探讨规律,找出隐含的能够导致森林病虫害发生的空间关联知识。在决策规则库中,主要存放由数据挖掘模块从历年病虫害数据中挖掘出的带有因果关联的空间地物的空间关联知识,这些空间关联知识描述了发生森林病虫害的直接或间接原因。为了举例说明预测的整个过程,选取决策规则库中针对某一地区的一条因果关联比较简单的空间关联规则如下:
IF 降水量小∧温度高∧树体高∧树龄高 THEN 发生病虫灾害 (50%,80%)
在上述空间关联规则中支持度50%,置信度80%。一般地,支持度表达的是规则的适用范围,支持度越大,关联规则越重要。置信度表达前件(原因)对于后件(结果)的促进作用,置信度越大,原因与结果之间的关联性越强。
下面就以上述的因果关联比较简单的空间关联规则来论述预测的整个过程:
森林监控信息信息源的数据主要来自遥感信息,地面站点监控信息,气象部门的气候和天气预报信息等。
监控信息处理引擎主要功能有四方面:
(1)接收并处理信息,接收森林监控信息源传来的监控信息作处理;把各属性矢量化存入临时空间数据库。已知该地区植被树龄较高而且树体高大,气象部门预报,未来一个月内降雨少,而且高温。将这四项矢量化,每一个属性空间化为一个数据层。如图3所示。
(2)提供决策支持,将接收的监控信息的空间矢量化结果进行叠合,叠合结果如图,重叠区也即是病虫害即将发生区:
根据决策规则库中空间关联规则:
IF 降水量小∧温度高∧树体高∧树龄高 THEN 发生病虫灾害;
做出决策重叠区内和周围将会发生严重的病虫害的概率为80%,同时为灾情预报提供重叠区的描述信息。
(3)采集信息收集,将存储在临时空间数据库的监控信息和现场病虫害情况信息一起存入空间数据库,为下一次的空间关联规则数据挖掘提供数据准备。
(4)提供灾情预报,根据(2)提供的重叠区的描述信息,为用户提供可视化界面,标示出森林病虫害将要发生的区域位置。
4. 总结
本文将空间关联规则数据挖掘应用到森林病虫灾害的预测领域。通过对历史病虫害数据挖掘规律和森林病虫害分布特征,达到预测或为预警工作提供重要科学依据和决策支持。基于空间关联规则数据挖掘方法,可以作为与GIS集成的数据挖掘模块中的一种,在数据挖掘分析以及最终为决策支持和预警等方面都具有丰富的现实意义,同时也可为其他空间关联规则数据挖掘工作提供参考。但在智能化的GIS系统中,不仅包含数据挖掘模块,也同时包含联机分析模块。如何将两个模块结合起来,并且最终形成有效的决策支持,这也是以后进一步研究的目标。
参考文献
李德仁,王树良,史文中,王新洲.论空间数据挖掘和知识发现.武汉大学学报(信息科学版) .2001年12月.
樊明辉.空间数据挖掘及其可视化系统若干关键技术研究.中国科学院研究生院博士学位论文.2006年5月.
陈江平.空间关联规则挖掘算法研究.计算机工程.2004年12月.
Jiawei H,Micheline K. Data Mining Concepts and Techniques Simon Fraser University,Morgan Kaufmann Publishers.2000.