支持向量机发端于关于如何控制泛论/归纳的统计学理论的研究,并找到在结构的复杂性与经验风险最好的结合点。支持向量机对点分类通过把它们分配到两个不相邻的半个空间内或者在形式空间内或者在一个高维的特征空间内。其中最受欢迎的支持向量机分类器是“最大边缘”。这一理论旨在于通过最大化分开的两个半空间来最小化泛论错误的上限。[博格斯,1998]和[科尔特斯和Vapnik , 1995 ]。决定这个分类器需要最小化一个二次函数约束于线性不等式,这是一个凸规划的任务。
Fung and Mangasarian (2001)最近提出了近似支持向量机的理论, 这或许可以被认为是最小平方的支持向量机的合法化形式。近似支持向量机需要一个线性方程式的解法,因此可以认为比传统的支持向量机快。在支持向量机的理论下解决这个线性方程式需要在一个更小维的空间内求一个矩阵的逆,因此有一个计算上的优势。
基于先前知识的数据分类正吸引愈来愈多人的兴趣因为它可以使一个人利用增加的专业知识和试验数据。因此,这样的分类技巧在三个设想中都可以应用,即:在只有实验数据可用的地方;在只有专业知识可用的地方和实验数据和专业知识都可用的地方。
最近Fung et al.(2001)以多维数据集的形式将各属于两个类别中的先前的知识引入到支持向量机的一个线性规划的公式中,目的是为了得到一个新的分类器即基于支持向量机知识。这里用一个定理作为替换,(Mangasarian, 1994),一个多维的知识集被重新定义为一套不等式,这样之前的知识就可以嵌入到线性规划的公式中。
本文中,我们提出一种支持向量机分类机的方法,它被这两种方法(Fung et al., 2001 Fung, G., Mangasarian, O.L., Shavlik, J. 2001. Knowledge-based support vector machine classifiers. Technical Report 01-09, Data Mining Institute, Computer Sciences Department, University of Wisconsin, Madison, Wisconsin, November. ftp://ftp.cs.wisc.edu/pub/dmi/tech-reports/01-09.ps, NIPS 2002 Proceedings. ftp://ftp.cs.wisc.edu/pub/dmi/tech-reports/06-04.pdf.[Fung et al., 2001] and [Fung and Mangasarian, 2001])引发出来,并且接下来我们将之定义为近似支持向量分类机(KBPSVM)。这个公式能够产生一个基于真实数据和先验知识的线性分类器。不像支持向量机那样需要求解二次规划的问题,提议的方法只要求一个颠倒的逆。进一步的利用矩阵的特殊结构,在目前情况下分割方法被提出来计算矩阵求逆的似乎是非常有效的。在某些基准数据上的结果证明了被提议算法的有效性。
本文安排如下:第二节简要谈到近似支持向量机还介绍了文章中用到的符号。第3节讨论了基于支持向量机的知识。第4节介绍了基于近似支持向量机线性知识。第5节处理实验结果,而第6节是结束语。