使用Python进行数据降维

2010 年 6 月 26 日

前言

为什么要进行数据降维？
直观地好处是维度降低了，便于计算和可视化，其深层次的意义在于有效信息的提取综合及无用信息的摈弃，并且数据降维保留了原始数据的信息，我们就可以用降维的数据进行机器学习模型的训练和预测，但将有效提高训练和预测的时间与效率。

降维方法分为线性
和 非线性
降维，非线性降维又分为基于核函数和基于特征值的方法(流形学习)，代表算法有

线性降维方法：PCA ICA LDA LFA
基于核的非线性降维方法KPCA KFDA
流形学习：ISOMAP LLE LE LPP

本文主要对线性降维方法中的 PCA、ICA、LDA
的Python实现进行讲解。

请注意

本文将不对各种数据降维方法的 原理与理论推导过程做过多的讲解
，旨在用尽可能少的语言说清楚以及如何用Python实现， 先实现再理解
，并在读完代码之后自行查阅相关文献理解其不同的思想。但读者应具有一定的统计学、代数学、机器学习的基础。

主成分分析PCA

主成分分

析(Principal Component Analysis)，是一种常用的数据降维方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量就叫主成分。关于主成分分析的思想与理论推导过程在互联网上很容易找到完美的证明，用人话说来就是找到一个轴，将你的数据映射到这个轴上之后所计算的方差最大，再换句人话说就是从原始数据的一堆变量中提取出一部分变量，而这部分变量能完美解释原始数据中包含的信息(或保留原始的数据特性)

注意：

进行主成分分析前需对数据进行 归一化处理

PCA流程：

对数据行 归一化处理
计算归一化后的数据集的协方差矩阵与其特征值、特征向量
对特征值从大到小排序并保留最大的个特征向量
将数据转换到个特征向量构建的新空间中

优点：

无参数限制
提取了主要信息并且结果容易理解

缺点：

方差小的主成分可能含有对样本差异的重要信息
在某些情况下，PCA方法得出的主元可能并不是最优的

相关Python代码

sklearn.decomposition.FastICA

Python实现示例(已注释)

import numpy as np

import matplotlib.pyplot as plt

from scipy import signal

from sklearn.decomposition import FastICA, PCA

# 生成观测模拟数据

np.random.seed(0)

n_samples = 2000

time = np.linspace(0, 8, n_samples)

s1 = np.sin(2 * time) # 信号源 1 : 正弦信号

s2 = np.sign(np.sin(3 * time)) # 信号源 2 : 方形信号

s3 = signal.sawtooth(2 * np.pi * time) # 信号源 3: 锯齿波信号

S = np.c_[s1, s2, s3]

S += 0.2 * np.random.normal(size=S.shape) # 增加噪音数据

S /= S.std(axis=0) # 标准化

# 混合数据

A = np.array([[1, 1, 1], [0.5, 2, 1.0], [1.5, 1.0, 2.0]]) # 混合矩阵

X = np.dot(S, A.T) # 生成观测信号源

# ICA模型

ica = FastICA(n_components=3)

S_ = ica.fit_transform(X) # 重构信号

A_ = ica.mixing_ # 获得估计混合后的矩阵

# PCA模型

pca = PCA(n_components=3)

H = pca.fit_transform(X) # 基于PCA的成分正交重构信号源

# 图形展示

plt.figure()

models = [X, S, S_, H]

names = ['Observations (mixed signal)',

         'True Sources',

         'ICA recovered signals',

         'PCA recovered signals']

colors = ['red', 'steelblue', 'orange']

for ii, (model, name) in enumerate(zip(models, names), 1):

    plt.subplot(4, 1, ii)

    plt.title(name)

    for sig, color in zip(model.T, colors):

        plt.plot(sig, color=color)

plt.subplots_adjust(0.09, 0.04, 0.94, 0.94, 0.26, 0.46)

plt.show()

以上就是早起的统计工具箱第二期的内容，当然想要完全学会还需要自行查阅更多文献，而更多的数据降维方法、还有上一期未介绍完的python统计检验我们之后再聊。

本文经授权转载自公众号早起python（每日分享数学/统计学/数据分析/python爬虫/网站开发运维相关知识
），作者刘早起。

M	T	W	T	F	S	S
« Jan
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

演道网

使用Python进行数据降维

About The Author

peace

Related Posts

About The Author

peace