基于判别式扩散映射分析的非线性特征提取

工作报告 |

时间:

2021-07-10 10:00:04

|


打开文本图片集

摘要:针对高维数据难以被人们直观理解,且难以被机器学习和数据挖据算法有效地处理的问题,提出一种新的非线性降维方法——判别式扩散映射分析(DDMA)。该方法将判别核方案应用到扩散映射框架中,依据样本类别标签在类内窗宽和类间窗宽中判别选取高斯核窗宽,使核函数能够有效提取数据的关联特性,准确描述数据空间的结构特征。通过在人工合成Swissroll测试和青霉素发酵过程中的仿真应用,与主成分分析(PCA)、线性判别分析(LDA)、核主成分分析(KPCA)、拉普拉斯特征映射(LE)算法和扩散映射(DM)进行比较,实验结果表明DDMA方法在低维空间中代表高维数据的同时成功保留了数据的原始特性,且通过该方法在低维空间中产生的数据结构特性优于其他方法,在数据降维与特征提取性能上验证了该方案的有效性。

关键词:扩散映射;非线性降维;判别核方案;类别标签;核函数;流形学习

中图分类号: TP311 文献标志码:A

Abstract: Aiming at that highdimensional data is hard to be understood intuitively, and cannot be effectively processed by traditional machine learning and data mining techniques, a new method for nonlinear dimensionality reduction called Discriminant Diffusion Maps Analysis (DDMA) was proposed. It was implemented by applying a discriminant kernel scheme to the framework of the diffusion maps. The Gaussian kernel window width was selected from the withinclass width and the betweenclass width according to discriminating sample category labels, it made kernel function effectively extract data correlation features and exactly describe the structure characteristics of data space. The DDMA was used in artificial Swissroll test and penicillin fermentation process, with comparisons with Principle Component Analysis (PCA), Linear Discriminant Analysis (LDA), Kernel Principle Components Analysis (KPCA), Laplacian Eigenmaps (LE) and Diffusion Maps (DM). The results show that DDMA represents the highdimensional data in a lowdimensional space while successfully retaining original characteristics of the data; in addition, the data structure features in lowdimensional space generated by DDMA are superior to those generated by the comparison methods, the performance of data dimension reduction and feature extraction verifies effectiveness of the proposed scheme.

Key words: Diffusion Maps (DM); nonlinear dimensionality reduction; discriminant kernel scheme; category label; kernel function; manifold learning

0 引言

状态检修技术对工业许多方面的应用影响很大。一个常规的检修过程包括三个阶段:原始数据采集,提取功能信号处理和对状态检修实现一个自动决定的模式识别[1-2]。然而感应器的增加和通过各种信号处理方法的特征提取可能会导致“维数灾难”[3],即当维数较高时,即使数据的样本点很多,散布在高维空间中的样本点仍显得很稀疏,许多在低维空间成功应用的数据处理方法,在高维中不能应用。因此,特征提取阶段降维过程是必要的。

降维过程是将样本从高维观测空间通过线性或非线性映射投影到一个低维特征空间,从而找出隐藏在高维观测数据中有意义的低维结构。如主成分分析(Principle Component Analysis,PCA)[4]和线性判别分析(Linear Discriminant Analysis,LDA)[5]。由于这些传统方法都是基于数据的线性转换,不能抽取出数据中非线性的结构,当分析非线性特性数据时可能会产生较差的影响。Cui等[6]提出的核主元分析(Kernel Principle Component Analysis,KPCA)主要解决非线性问题,通过非线性映射将原始的非线性输入空间变换到一个高维隐性的线性特征空间;然而KPCA不能明确地考虑数据内在的几何结构,这些数据可能驻留在流形上[7]。

近年来,出现了一种新的非线性降维方法趋势,即流形特性学习分析,例如拉普拉斯特征映射(Laplacian Eigenmaps,LE)[7]和扩散映射(Diffusion Maps,DM)等。其主要思想是首先在数据中产生一个局部近邻结构,然后全局将流形映射到低维空间中。流形方法较传统的线性方法有两个主要优势:1)流形方法能够发现构成复杂观测的非线性自由度;2)流形方法可以保留局部结构。在多数情况下,那些关系到物理现象的数据点不存在线性流形,且较远分离点之间的距离是没有意义的,因此可能不会被成功地保留[8]。

由Coifman等[8]引入的扩散距离采用所谓的“扩散度量”,即测量数据点之间的相关性,主要思想是在数据集上构造一个扩散图,用扩散距离来描述数据间的相似度,使用一系列的扩散核进行数据降维,从而避免了高维矩阵进行特征分解时的不稳定性[9]。尚晓清等[10]提出的一种基于扩散映射建立多层谱分解的数值算法,使其能够发现非线性高维数据的本征维数。赵小强等[11]将扩散映射用于TE化工过程中的IWOFCM算法中,验证了扩散映射对数据集有聚类效果,比较适合数据的分类与识别。夏鲁瑞等[12]利用扩散映射提取数据内在的低维流形特性,克服了传统方法解决非线性问题不足的缺点。然而,应用扩散映射算法完成的是一个无人监督的框架,可能会失去通过数据集的类别标签所提供的信息。在扩散映射高斯核函数exp(-‖x-y‖2/β)中,关于参数β的选择问题,通常采用迭代算法和搜索算法,尤其以搜索算法为多。Yu等[13]用迭代算法求优化参数,用核空间的距离作为优化指标。Smola等[14]基于核参数对泛化性能的影响来确定回归问题的核参数。

针对以上问题,提出了一种新的鲁棒流形降维技术,称作判别式扩散映射分析(Discriminant Diffusion Maps Analysis,DDMA)。该方法继承DM的优点,首先在样本完全图中应用马尔可夫随机游走,然后将判别方案整合到DM的框架,通过定义权重矩阵得到t步转移概率,进而定义出带有权重信息的扩散距离。扩散距离可以有效衡量数据样本的关联信息,同时使得数据分布信息更加清晰,更好地把流形学习引入到人工合成Swissroll测试和青霉素发酵过程的仿真应用中。

1 扩散映射分析

1.1 扩散映射

扩散映射的框架来源于动力系统。在数据图上定义一个Markov 随机游走,通过若干时间步长的随机游走,得到数据点之间接近度的一种度量关系,有了这种度量,可以定义所谓的扩散距离。在数据的低维表示中,这种扩散距离得以保留。

从图1 中可以看出四类数据点在三维空间中,其分布密度不规则,类x与类x2、类x1与类x3各分别构成一组螺旋曲线,且两组螺旋曲线的不规则分布,使数据点间在三维空间中的分布密集程度不同。进而,需要采取有效的特征提取方法,使提取出的数据点在低维空间中的分布得以展现。

为了使DDMA与其他方法合理比较,最近邻参数K与DDMA中最近邻参数Nb均为900。KPCA的高斯核窗宽βkpca=1,LE的高斯核窗宽βle=∞(简单的连接方式),DM通过式(10)计算高斯核窗宽βdm,DDMA通过式(14)计算高斯核窗宽βij;DM的转移时间与DDMA的转移时间t均为64,判别常数r取值为2。图2给出了不同方法特征提取后的特征空间图,所有方法的本征维数d′=2。

从图2(a)中可以看出,PCA由于只能处理线性数据的转化,在应用于非线性降维分类时没有使用数据的类别信息,同时不能保留数据的局部信息,所以没能打开原始数据流形。同样对于只能处理线性数据的LDA方法,仅用到类别均值信息,而没有利用数据的二阶统计信息——方差,使求得的变换函数有一定的局限性,在低维空间中也不能保留数据的局部信息,应用在非线性降维分类时会失败。

如图2(b)所示,基于神经网络的KPCA方法通常产生一个局部最优,在保证全局最优时有一定困难,KPCA不能明确考虑数据的内在几何结构,所以也没能打开原始数据流形。基于流形学习的LE方法,由于采用欧氏距离保持近邻数据点,近邻的高维数据点映射到内在低维空间后仍为近邻点,从图2(b)可以清楚地看出流形两端的数据点几乎混在一起。

由于DM方法采用了固定的核窗宽β,在实际应用中属于不同类的数据点,其分布在特征空间中的分散密度和形状是不均匀的,固定的核窗宽会对那些稀疏结构的数据产生更多的离散分布,甚至模糊投影后的边界。所以DDMA采用不同的核窗宽,使不同类别间数据的密度及其稀疏分布通过相应核窗宽进行比较,使离散分布和紧密分布的数据都能够准确地分开,如图2(c)右所示。DDMA有效提取数据的特征,在低维空间成功保留高维数据点的局部几何特性,使同一类的数据聚集得更加紧密,使不同类的数据分散得更远,展现出四类数据,验证了此方案的准确性。

图3给出本例中判别核窗宽和判别核矩阵的色谱映射图。可以看出,在计算核矩阵过程中依据类别标签判别选择核窗宽,使得核矩阵更能体现原始数据的结构特征,这也是判别核方法能够在扩散映射空间将4类数据分离的主要原因。

3.2 青霉素发酵过程数据测试

青霉素的生产制备是一个典型的非线性、动态、多阶段间歇生产过程。由Birol等[17]开发完成的青霉素生产仿真软件Pensim2.0为青霉素间歇生产过程的监控、故障诊断提供了一个标准的测试平台。

本文基于DMMA方法对青霉素多工况间歇过程进行特征提取,实现降维并分类,以验证方案的优越性。

利用Pensim2.0模型,在标准初始条件下共产生69批建模数据,其中60批正常数据作为训练集,9批故障数据作为测试集。每批发酵过程持续时间均为400h,包括35h的菌株培养阶段和350h的补料发酵阶段,采样时间间隔为2h。本文只选取生产过程中9个主要变量,这些变量与产品的生产过程和最终状态密切相关,如表1所示。

为了模拟该过程的多工况现象,通过改变发酵体积的初始值来实现,图4为变量Culture volume的散点图。从图4中可以清楚看出所有数据分为三类工况,初始值分别为100、130和160,每组训练集包含20个正常批次,各组类标签分别设置为m1、m2、m3。同时测试集也分成三类,每类包含3个故障批次,与训练集具有相同类标签,具体过程如表2所示。由于间歇过程典型的数据特点是三维数据(批次×变量×时间),基于批次的展开方式(batchwise unfolding)将间歇过程的原始三维数据(69×200×9)展开成二维数据(69×1800)[18],图5给出数据处理过程。通过不同方法将原始高维训练和校验数据一同映射到二维空间中。

从图6(a)中可以看出,PCA不能保持局部近邻结构,没有有效地提取数据中最具代表性的特征,因此不能分开青霉素三类工况数据,且测试集的故障数据1、2与正常数据重叠,没有被检测出。图6(b)中KPCA由于核选择问题通常不能直接体现数据的内在结构,在低位空间中其末端出现了节点,三类工况的数据交接在一起,一些故障批次被错误映射到正常数据集中。图6(c)中DM没能打开数据集,从图中可以看出三类工况数据在边界处有重叠,正是由于DM采用固定的核窗宽,使特征提取失败,模糊了各类边界。图6(d)中DDMA通过将高维数据降到低维空间,有效提取了数据的特征,在低维空间中能够保留数据点的内在局部几何特性,将属于同一工况的数据集聚集得更加紧密,而不同工况的数据集分离得更远;同时所有测试集的故障数据均被成功提取出,这样DDMA的高效性与准确性得以实现。

图7给出判别式扩散映射空间中样本间距离色谱映射图。由图中可以看出同类别样本间距离小,类间的样本距离大。因此,映射空间仍然对原始数据结构有一个精确判断。所以,判别式扩散映射方法为数据分类提供了一种有效的方式。

4 结语

本文提出了一种新的用于降维的DDMA算法,基于权重图上Markov随机游走,通过运用判别核窗宽方案充分利用类标签信息,能够获得数据集间的扩散距离;并给出了DDMA算法的具体步骤。扩散映射作为一种新的非线性降维方法,能够保持局部数据间的距离,并且增大不在同一邻域内数据之间的距离。DDMA通过人工合成Swissroll测试和青霉素发酵过程测试,在数据降维和特征提取性能上验证了该方法的优越性。由于DM方法中最近邻数Nb不能准确选取,需要多次验证选择最优;并且频繁计算距离的分布,导致计算量较大。因此将来的研究需要采取更有效的算法来提高DDMA性能并降低计算量,同时将高斯核的判别方案应用到其他基于高斯核算法的实验上。

参考文献:

[1]JARDINE A K S, LIN D, BANJEVIC D. A review on machinery diagnostics and prognostics implementing conditionbased maintenance [J]. Mechanical Systems and Signal Processing, 2006, 20(7): 1483-1510.

[2]LEE J, NI J, DJURDJANOVIC D, et al. Intelligent prognostics tools and emaintenance [J]. Computers in Industry, 2006, 57(6): 476-489.

[3]KORN F, PAGEL BU, FALOUTSOS C. On the "dimensionality curse" and the "selfsimilarity blessing" [J]. IEEE Transactions on Knowledge and Data Engineering, 2001, 13(1): 96-111.

[4]ZHOU D, LI G, LI Y. Data driven industrial process fault diagnosis technology — Based on PCA and PLS methods [M]. Beijing: Science Press, 2011: 22-30. (周东华,李钢,李元.数据驱动的工业过程故障诊断技术——PCA与PLS的方法 [M]. 北京:科学出版社, 2011: 22-30.)

[5]HUANG D, QUAN Y, HE M, et al. Comparison of linear discriminant analysis methods for the classification of cancer based on gene expression data [J]. Journal of Experimental and Clinical Cancer Research, 2009, 28: 149.

[6]CUI P, LI J, WANG G. Improved kernel principal component analysis for fault detection [J]. Expert Systems with Applications, 2008, 34(2): 1210-1219.

[7]BELKIN M, NIYOGI P. Laplacian eigenmaps for dimensionality reduction and data representation [J]. Neural Computation, 2003, 15(6): 1373-1396.

[8]COIFMAN R R, LAFON S. Diffusion maps [J]. Applied and Computational Harmonic Analysis, 2006, 21(1): 5-30.

[9]SINGER A, WU HT. Vector diffusion maps and the connection Laplacian [J]. Communications on Pure and Applied Mathematics, 2012, 65(8): 1067-1144.

[10]SHANG X, SONG Y. A nonlinear dimension reduction algorithm based on diffusion mapping [J]. Journal of Xidian University, 2010, 37(1): 130-135. (尚晓清,宋宜美. 一种基于扩散映射的非线性降维算法[J].西安电子科技大学学报, 2010, 37(1): 130-135.)

[11]ZHAO X, ZHOU J. An IWOFCM data mining algorithm of chemical industrial process based on diffusion mapping [J]. Journal of Lanzhou University of Technology, 2014,40(3):102-105. (赵小强,周金虎.一种基于扩散映射的化工过程IWOFCM数据挖掘算法[J].兰州理工大学学报,2014,40(3):102-105.)

[12]XIA L, HU N, QIN G. Abnormal recognition algorithm based on manifold learning for turbopump mass data [J]. Journal of Aerospace Power, 2011, 26(3): 689-703. (夏鲁瑞, 胡茑庆, 秦国军. 基于流形学习的涡轮泵海量数据异常识别算法 [J].航空动力海报, 2011, 26(3): 689-703.)

[13]YU K, JI L, ZHANG X. Kernel nearest neighbor algorithm [J]. Neural Processing Letters, 2002, 15(2): 147-156.

[14]SMOLA A J, SCHOLKOPF B. A tutorial on support vector regression [J]. Statistics and Computing, 2004, 14(3): 199-222.

[15]LAFON S S. Diffusion maps and geometric harmonics [D]. New Haven: Yale University, 2004: 33.

[16]LIU X. Data dimension reduction and classification of manifold learning research [D]. Hangzhou: Zhejiang University, 2007: 53 (刘小明. 数据降维及分类中的流形学习研究 [D].杭州:浙江大学, 2007: 53.)

[17]BIROL G, NDEY C, INAR A. A modular simulation package for fedbatch fermentation: penicillin production [J]. Computers & Chemical Engineering, 2002, 26(11): 1553-1565.

[18]NOMIKOS P, MACGREGOR J F. Monitoring batch processes using multiway principal component analysis [J]. AIChE Journal, 1994, 40(8): 1361-1375.

延伸阅读
新人入伍工作材料  蓦然回首,往事尽显眼前,但我想得最多的却是这段从军的日子。“既然选择
2023-06-17
新人入职第一个月工作总结3篇  作为新人,企业公司工作了第一个月,我们要对第一个月的工作作出一个总结
2023-06-10
销售新人年终工作总结  20xx年马上就要年尾了,作为销售新人在这一年自己的销售能力锻炼不少,同时也
2023-05-31
新人销售工作心得分享范文合集  销售是个很有趣的工作,每天都会面临许许多多的挑战,客户说&ldquo
2023-05-24
新人工作总结范文大全  工作总结,就是把某一时期已经做过的工作,进行一次全面系统的总检查、总评价,进
2022-05-07