林业数据库设计与标准化问题探讨

鉴于大家对数据库十分关注，我们编辑小组在此为大家搜集整理了“ 林业数据库设计与标准化问题探讨 ”一文，供大家参考学习

    摘　要:剖析了目前我国林业数据库设计的诸多弊端,提出了林业数据库设计的目标与原则思路,进而探讨了林业主要调查项目数据库设计中诸如关系、属性、代码、计算规则等实行标准化的必要性与可行性。
　　关键词:数据库设计;林业调查;标准化
    1　林业数据库设计的特点1.1　数据库技术在林业计算机应用中的地位信息技术的发展为林业提供了科学的手段与广泛的应用前景。目前计算机技术在林业上的应用归结为三大基础技术:遥感应用技术、图形图像处理技术与数据库技术。其它技术由这三大基础技术而派生。例如地理信息系统技术是以数据库技术为基础,结合了图形图像处理技术和或遥感应用技术;而林业多媒体技术则是上述基础技术与声音、影像及动画等技术的集成。数据库技术处在关键的核心地位。
　　1.2　林业数据库设计的特点单独讨论林业数据库设计是因为它有别于一般数据库设计的特点,这些特点由林业信息的特点所决定。
　　1)自然信息本身具有的复杂性。某些数据项基于复杂的属性定义,它使得数据项间、表与表间的关系更难于确定。并且它还允许数据错误(允许误差),而一部分错误又将在下一期本文对现行林业调查及计算技术的分析得到骆期邦教授、曾伟生副总工的帮助。调查中被发现。对错误的处理是极其复杂的,例如对连清样木的复位、多测、漏测、错测木等的处理。
　　2)长周期性。往往需要对数年或数十年的资料进行综合分析,需要数据库设计与维护考虑历史连贯性。最低限度,我们当前的数据库软件,应能兼容对历史数据的操作。
　　3)间歇性。数据的采集、维护与应用,往往要间隔相当长的时间。例如一类的间隔为5a,二类的间隔为10a。这就必须保证操作者在间隔一段时间后,能重新熟悉原数据库结构与应用软件操作。
　　4)需求的不断变化。几乎每一次新的林业调查都增加了新的内容,并带来调查方法与信息需求的变化,这就需要数据库结构能动态更新,同时保证历史兼容性。
　　2　存在的主要问题和原因2.1　现状与问题尽管林业数据库应用已非常普及,但却远未达到应有的效果。林业数据库设计仅仅只用于取代过去算盘与计算器的作用,它所能提供的强大功能并没有真正体现出来。
　　1)无数据共享可言。随着信息技术的发展,“地理信息系统”、“地球村”等概念应运而生,这就对信息的共享提出了更高的要求。目前即使在行业内部、区域范围、项目与项目之间,数据的共享都无从谈起。另一方面,林业科研人员是促进林业科技进步的主要力量,不能仅限于对已发布汇总信息的利用,应该创造条件,让他们直接对基础数据加以利用。
　　2)无法满足变化了的需求。随着社会的进步,林业的定位也正进行着以木材生产为主向生态公益作用为主的转变,对林业信息需求也正不断发生着变化。这就要求数据库能以最小的代价来扩充这种需求。理想的情况是,决策者提出评价指标要求,林业专家基于新的需求提供计算模型,软件人员将模型加入到应用软件,即能提供正确结果。现实的差距显而易见:对于标准表之外的应用,常需付出沉重的代价。例如,1998年国家林业局为获取全国主要流域、林区和生态工程区的森林资源统计结果,四个直属院各投入了数名计算机技术人员,花了近一年时间用于数据计算与分析。这些计算人员绝大部分时间都花在对不同总体数据的转换,为不同的分析表准备数不清的过渡表上。对于一个成功的数据库设计,它应该只是半个月的工作量。
　　3)大量历史数据未能得到充分利用。林业数据库设计的习惯做法,只是对本次调查的数据进行管理与计算,最多与前期进行简单对比,更早的数据一般不用。为完善连清数据库,国家林业局已于1999年给四个直属院下达了建立历次连清数据库的任务,但并未见出台对历次数据的整体利用方案。由于各总体及不同时期调查方法上的差异,全国连清数据库的建立肯定不会是简单的数据合并,必须要有一个完整的设计方案。
　　4)信息利用率低。由于数据缺乏共享机制,数据库设计只以提供一套结果表为目标,以及缺乏对历史数据的整合,信息利用率低是必然的。林业数据库设计必须为数据的深入利用提供接口与界面。
　　5)上级汇总分析困难重重。例如连清以各省为总体,但必须满足全国范围的统计分析,这是最基本的要求。然而每次全国连清汇总都需要几个回合的研讨,这表明连清数据库设计的确存在问题。
　　2.2　原因分析1)陈旧的手工计算思维方式。50年代,我国就已开始全国性的森林资源清查工作,1973~1976年的“四五”清查,1978~1981年的“五五”清查,1984~1988年的“六五”清查,使我国森林资源清查体系得以逐步完善。限于当时的计算技术,所设计的便于手工计算的表格及逐级汇总方式,是与当初的条件相适应的。然而现在,计算机技术得以飞速发展与普及,但我们还在很大程度上沿用这种逐级汇总的计算模式,最终结果并不直接来自于基础数据,而是基于经多代派生的中间表。编制调查规程时,只考虑某些指标的获取和汇总表的实现,不考虑数据库的建设,数据库设计只是在调查已经开始或调查结束之后才启动,使数据库设计受到更多的局限,限制了其技术应用空间。项目往往将部分计算工作转嫁给调查人员,增加了调查人员的负担,同时也大量增加因手工计算造成错误数据的机会,如二类调查中大量繁琐的插值查表、按公式换算、汇总与平差。目前我们已采用了许多现代化的调查手段,但利用思维还是原始的。
　　2)数据库设计目标过低。仅仅为产出本项目汇总表,并过分依赖人工干预和派生表,数据库设计极不规范,使数据利用率低,对应用的扩充也极其困难。
　　3)各自为政,无标准与共同法则可循。一、二类调查技术规定只规范了调查因子定义,调查因子代码,以及标准产出表(一类27大表,二类13大表),而缺乏对数据库结构、字段名等项的定义与规范,这使得原始数据无法直接归并。
　　4)信息缺乏共享机制。国家林业局应通过颁布相应的制度与标准,为数据的共享创造环境。
　　3　林业数据库设计的目标与原则理想的数据库设计至少应保证信息在一定层次上的共享,便于对基础信息的充分利用。这也是林业数据库设计的基本目标。要达到这一目标,可参照如下原则:
　　3.1　确定数据库设计在项目工作中的位置现在的做法,是数据库设计仅仅取代了以前内业统计汇总工作。这是远远不够的,必须彻底转变这种重调查、轻数据库设计的观念。根据软件工程和信息系统工程的理论,数据库设计与软件设计包括了对信息需求的调查分析与数据定义。因此,数据库设计应与技术规程的制定有机的结合起来。一方面,数据库设计人员应参与对技术规程的讨论与制定,在完成技术规定的同时,也就形成了数据库设计的解决方案。另一方面,强调林业技术人员对数据库设计的参与,数据库设计不仅仅是计算机技术人员的事。
　　3.2　规范对数据库设计工作的管理数据库设计及其软件编制,同样是一项技术工程项目,它已有完善的理论体系与工作流程,例如关系数据库理论中的数据依赖、范式、模式设计方法;软件工程中的瀑布模型。从1988年开始,国家标准局已公布了一系列软件工程标准,例如《软件开发规范(GB8566-88)》、《计算机软件产品开发文件编制指南(GB8567-88)》等,这些规范都有利于提高林业数据库设计水平。
　　3.3　应考虑林业数据库设计的特点在技术实施中,应考虑林业信息的特点,采用适当的技术路线、技术措施与设计技巧。例如在选择是开发单机应用,还是网络的问题上,考虑目前林业网络不普及,加之网络数据库及应用软件的技术复杂,开发成本高,其所提供的高安全性与多用户特点对林业应用意义不大。单机数据库软件具有简单灵活的特点,因而推荐以单机应用为主。目前单机数据库软件环境,完全能满足林业数据库应用的需要。笔者作过一项测试:因估计到全国历次连清数据文件可能会达到GB级,笔者将一数据文件扩展到1.18GB,记录数达到9520211条,对该数据文件仍能自如的操作,对全部记录单一字段上求和,所花时间约为1min。
　　3.4　分层数据库架构既然连清是以省为总体,二类调查是以县(林场)为总体,就应该允许各总体设计自己的数据库,开发特有的应用,扩充调查内容与分析,体现各总体的特色(否则就不如以全国为总体更为简单直接)。而不是强调或推行统一的应用软件,因为统一的应用软件往往不能含盖所有用户的需求。连清必须满足全国汇总,二类需要满足省级汇总,全国(或二类的省)数据库接收各总体的数据,满足全国(或二类的省)汇总与分析的需要。这就要求各总体按标准化的格式上报数据(它自身数据库的一个子集),同时提供完善的计算法则文档。
　　3.5　文档的完备性要求至少能保证非当事人正确引用基础数据与使用应用软件。对软件工程文档要求应参阅有关国家标准。综上所述,提供参考流程图:
　　4　标准化工作要实现上述数据库设计的目标与原则,一个简捷有效的途径是实施标准化。
　　现行的主要林业调查技术规定已经具有了一些数据库设计必须遵循的标准,例如主要调查因子、代码、标准表等,但仅仅这些还不够,必须有更加详细的规范。
　　对标准颁布、它的适用范围、它的约束力等问题笔者认为应当区别对待。连清涉及全国汇总,理所当然应由国家林业局颁布,对于要提供全国汇总的数据项(因子),必须严格按标准执行。而对于各总体可能的数据附加,则可定义非约束力的标准。二类则可按国家与省两级定义为好。需要在全国范围共享的数据,由国家林业局颁布标准,省则可以在此基础上颁发补充标准,以利于区域范围内的数据共享与省级汇总。林业数据库标准化工作包括如下主要内容:
　　4.1　关系定义在全面弄清现有数据及数据的扩充意向后,制定数据库结构的解决方案。例如连清的两大主表分别为样地因子表与样木因子表,它们是一对多的关系(父子关系),它们通过样地的唯一标识符关联。根据数据库理论,同类信息应归并,这就是说全国历次连清数据最好都归并到这一对父子表中。
　　4.2　属性定义属性定义包括两层含义:一是该因子所代表的自然属性,这已由《技术规定》进行了定义;二是数据库中的字段定义,名称、数据类型、宽度等等。由于现在的各种数据库管理系统(DBMS)都能实现按名引用,因此对其标准化具有重大现实意义。
　　4.3　代码定义原林业部于1987年就发布了《森林资源代码》,对一、二类数据规范起到了十分重要的作用,使汇总计算成为可能,但应进一步完善与扩充。不同调查体系的相同因子,应采用相同的代码。另一方面,对于新增内容应能及时扩充,而不破坏原有定义。
　　4.4　行业计算规则定义由于自然因子调查的复杂性及历史的原因,使得全国不同总体间、同一总体的不同调查期,遵循不同的计算法则(数学模型)。只有基于完整的计算法则参考,对全体数据的操作才能成为可能。因此,每个总体的每一期数据,都应明确的提供其计算法则集。计算法则问题,是当前林业数据库中存在的最根本问题。我国连清库数据库迟迟建不起来,问题频出的关键就在于计算法则不确定或者过于复杂。要真正建立起我国连清库数据,提供完整、明确的计算法则集是首要解决的问题。
　　借鉴面向对象程序设计原理,推荐的解决方法:全国基于通用的调查方法,定义一个计算法则集,而各总体只须申明需要改变的计算法则,这就象程序设计中类的继承、重载、多态性一样。基于上述各项标准化措施,可以描绘这样一幅场景:基层单位按照国家标准打造自己的数据库,可以灵活的选用DBMS及应用软件,可以依自身的调查需要增加特有的调查因子甚至表格。在算法上采用通用的算法,或者通过声明,采用特定的计算规则。上级部门可以直接采用基层数据,因为数据规格是标准化的,通过查阅基层单位的计算规则,并把这些规则补充到总的规则集中,使针对不同计算规则的数据可以协同,取得正确的产出。标准化后,数据共享将更加方便,科研人员仅仅通过查阅标准就可以对数据进行深入分析;不同类型的项目,如果有数据重叠,则可简单的引入数据.
        参考文献:
　　1.陆守一,等.地理信息系统实用教程[M].中国林业出版社,1998.
　　2.游先祥,等.森林资源调查、动态监测、信息管理系统的研究[M].1995.
　　

林业数据库设计与标准化问题探讨

相关资讯

相关文章

相关专题

网学推荐

原创论文

文章排行榜