高维数据中包含了大量的冗余并隐藏了重要关系的相关性,降维的目的就是消除冗余,减少被处理数据的数量,因而广泛应用于数据分类和模式识别等领域。
为了提高统计模式识别的正确识别率,人们通常需要采集数量巨大的数据特征,使得原始空间或输入空间的维数可能高达几千维或万维。如果直接在输入空间上进行分类器训练,就可能带来两个棘手的问题:(1)很多在低维空间具有良好性能的分类算法在计算上变得不可行;(2)在训练样本容量一定的前提下,特征维数的增加将使得样本统计特性的估计变得更加困难,从而降低分类器的推广能力或泛化能力,呈现所谓的“过学习”或“过训练”的现象。要避免出现“过学习”的情况,用于统计分类器训练的训练样本个数必须随着维数的增长而呈指数增长,从而造成人们所说的“维数灾难”。
解决方法:选取尽可能多的,有用的特征,然后根据需要进行维数约简。
当前有许多降维方法,这些方法可以分成:线性方法和非线性方法。
线性降维方法:通过特征的线性组合来降维。本质上是把数据投影到低维线性子空间,公式化为: 线性方法性对比较建大且容易计算。两种经典且广泛使用的线性变化方法:主成分分析(PCA)和线性判别分析(LDA)。 1. PCA分析 PCA的目的:寻找在最小均方意义下最能够代表原始数据的投影方法。PCA对于椭球状分布的样本集有很好的效果,学习所得的主方向就是椭球的主轴方向。 非线性降维算法主要有多维度MDS,线性局部嵌入(LLE),局部线性投影(LLP),Laplacian特征映射,Hessian特征映射和等距映射(Isomap)。
|