【网学提醒】:本文主要为网上学习者提供基于改进随机森林的故障诊断方法研究,希望对需要基于改进随机森林的故障诊断方法研究网友有所帮助,学习一下吧!
资料包括: 论文(9页6887字)
说明:摘要: 针对机器学习方法作为故障模式识别工具具有广泛的应用,但是在一类不可识别故障的诊断方面存在不能有效定位故障的不足,提出应用改进随机森林组合分类器算法进行改进。改进随机决策树的bagging方式,采用条件概率指数进行决策树无偏节点分裂,改进变量重要性计算算法来获取辅助故障定位的故障原型指数,较好地克服了原随机森林和机器学习在故障诊断中的不足和局限性。最后在一个标准数据集和Tennessee Eastman Problem(TEP)故障诊断的问题上进行验证,结果证明了该法的有效性和优越性
关键词: 故障诊断;随机森林;故障原型;TEP
Research on Fault Diagnosis Method Based on Modified Random Forests
Abstract:To avoid traditional machine learning techniques not to effectively locate the fault location in fault diagnostic application , in this paper ,a fault diagnosis method based on modified random forests is presented. Modify the algorithm of bagging sample、split method、variables importance measure in random forests by analysis of limitation of traditional machine learning fault diagnosis method and original random forests. The presented method is illustrated and documented thoroughly in an application of Tennessee Eastman Process (TEP) and stander data. The results verified the feasibility and effectiveness of this presented approach.
Key words:Fault diagnosis Random forests Fault prototype TEP
0 前言
故障是指系统的非正常状态,即在正常条件下,系统实际功能输出或附加输出偏离规定界限的现象,从而造成系统或部件的破坏[1, 2]。故障从确定性角度可以分为两类:可识别故障与不可识别故障。可识别故障主要是指故障的发生位置能够从故障类别信息中直接确定,如经过确诊的故障,其发生位置与故障类别是一一对应关系;不可识别故障是指故障的发生位置暂且无法从故障类别信息中直接确定,如一类未经过确诊的新故障,在允许的诊断时间内,工程人员可以判定这是属于一类故障,但是故障的发生位置暂且不能确定需经过一定时间的查找才能确定故障发生的位置,经查找出故障发生位置后即可建立故障发生位置与故障类别一一对应关系。故障诊断就是判断一个系统是否有故障发生,如果有故障发生那么其故障发生的位置在哪里,它主要包括三个方面:故障的检测——判断一个系统是否有故障发生;故障的识别——如果故障发生,显示与故障最相关的监控变量;故障位置的确定——确定故障的真正位置
故障诊断在确保工业系统正常运行和安全生产等方面起着重要的作用。故障诊断的理论和方法也经历了不同的阶段发展。迄今,多个领域的研究者已提出了多种故障诊断方法,如基于模型的故障诊断(包括基于输入输出和信号处理的方法、基于状态估计的方法、基于过程参数估计的方法)、基于人工智能的方法(包括基于机器学习的方法、基于进化计算的方法、基于模糊数学等),这些故障诊断方法在流程工业、电力系统安全检测等多个领域都有广泛的应用。基于模型的故障诊断是在已知系统数学模型的情况下,通过比较实际系统输出和数学模型的输出来产生残余误差,当系统没有故障发生时,残余误差为零,否则残余误差不为零。在与其它的故障诊断方法相比,基于模型的故障诊断效果是最好的,但是随着现代工业系统复杂程度的增加、系统规模的扩大,其数学模型已经很难获取到,因此基于模型的故障诊断的应用受到限制。基于机器学习方法是一类有效的智能诊断方法,它不需要系统准确模型,而是通过历史的监控输入输出数据来建立系统的黑箱故障诊断模型,这类方法往往集中了故障检查、识别与定位的故障诊断功能,并且成为该领域的一个研究热点。
目录:1 原随机森林的算法
2 基于无偏随机森林改进算法
3实验与分析
4总结
参考文献:王道平,张义忠. 故障智能诊断系统的理论与方法[D]. 北京: 机械工业出版社, 2001.
A. T. Svetnik V. Liaw, C. Culberson. QSAR modelling using random forest, an ensemble learning tool for regression and classification[J], Journal Of Chemical Information And Computer Sciences, 2003, 43(3): 947-958.
C. D. Vasile Palade, Bocaniala,L. C. Jain. Computational Intelligence in Fault Diagnosis[D]. Berlin: Springer, 2006.
V. Venkatsubramanian, R. Rengaswamy, K. Yin. A review of process fault detection and diagnosis Part I: Quantitative model-based methods[J], Computers & Chemical Engineering, 2003, 27(3): 293-311.
吴晓辉, 刘炯, 梁永春. 支持向量机在电力变压器故障诊断中的应用[J], 西安交通大学学报, 2007, 41(06): 722-726.
谭树彬, 刘建昌, 钟云峰. 基于神经网络的电液伺服阀故障诊断[J], 仪器仪表学报, 2006, 27(6): 415-418.
L. Breiman. Random forests[J], Machine Learning, 2001, 45(1): 5-32.
B. L. Bagging preditors[J], Machine Learning, 1996, 24(2): 123-140.
王钰, 周志华,周傲英. 机器学习及其应用[D]. 北京: 清华大学出版社, 2006.
P. DN, R. JP,W. M. subsampling[D]. New York: Springer, 1999.
C. Strobl, A. L. Boulesteix, A. Zeileis. Bias in random forest variable importance measures: Illustrations, sources and a solution[J], Bmc Bioinformatics, 2007, 8(25): 1471-1492.
A. P.,T. J. Bootstrap methods for developing predictive models[J], The American Statistician, 2004, 58(3): 131-137.
M. R.-. Sikonja. Improving Random Forests[C]. In: Machine Learning Proceedings, 2004,12: 1234-1242.
G. Chen,T. J. McAvoy. Predictive on-line monitoring of continuous process[J], Journal Of Process Control, 1999, 8: 409-420.
[15]J. J. D. a. E. F. Vogel. A plant-wide industrial-process control problem[J], Computers & Chemical Engineering, 1993, 17: 245-255.
[16]L. H. Chiang, E. Russell,R. D. Braatz. Fault Detection and Diagnosis in Industrial Systems[D]. Berlin: springer 2001.
作者点评:随机森林组合分类器算法相比与传统机器学习而言具有一定的优势。本文首先阐述了随机森林的相关理论背景以及算法。在应用原随机森林进行故障诊断的过程中发现一定的局限性,经过分析,本作者在随机样本的选取、节点分裂、变量重要性计算等方面进行了改进。通过两个数据集来对改进的算法进行验证,结果显示该算法具有可行性和优越性。
改进随机森林可以辅助工程人员较快的找出故障的发生位置,这将大大缩短企业生产系统的停车时间,从而为企业创造了经济效益。下一阶段的研究方向是如何应用随机森林建立在线故障诊断的架构。