机器学习降维之主成分分析(PCA)
主成分分析(Principal components analysis, PCA)是最重要的降维方法之一,在数据压缩、消除冗余和数据噪音消除等方面有广泛的应用。通常我们提到降维算法,最先想到的就是PCA,下面我们对PCA原理进行介绍。1. PCA思想PCA就是找出数据中最主要的方面,用数据中最重要的方面来代替原始数据。假如我们的数据集是n维的,共有m个数据(x1,x2,...,xm),我们将这m个
主成分分析(Principal components analysis, PCA)是最重要的降维方法之一,在数据压缩、消除冗余和数据噪音消除等方面有广泛的应用。通常我们提到降维算法,最先想到的就是PCA,下面我们对PCA原理进行介绍。1. PCA思想PCA就是找出数据中最主要的方面,用数据中最重要的方面来代替原始数据。假如我们的数据集是n维的,共有m个数据(x1,x2,...,xm),我们将这m个
在MCMC采样和M-H采样中,我们讲到M-H采样已经可以很好的解决蒙特卡罗方法需要的任意概率分布的样本集问题。但是M-H采样有两个缺点:一是需要计算接受率,在高维情况下计算量非常大,同时由于接受率的原因导致算法收敛时间变长。二是有些高维数据,特征的条件概率分布方便求解,但特征的联合分布很难求解。因此需要改进M-H算法,来解决上面提到的两个问题,下面我们详细介绍Gibbs采样方法。1.细致平衡条件M
在MCMC之马尔可夫链之中我们介绍到,给定一个概率分布π,很难直接找到对应的马尔可夫链状态转移矩阵P。只要解决这个问题,我们便可以找到一种通用的概率分布采样方法,进而用于蒙特卡罗模拟。下面我们来介绍如何找到马尔可夫链所对应的状态转移矩阵P。1.马尔可夫链细致平稳条件解决平稳分布π所对应的马尔可夫链状态转移矩阵P之前,我们先看一下马尔可夫链的细致平稳条件。其定义为:如果非周期马尔可夫链的状态转移矩阵
在MCMC之蒙特卡罗方法之中,讲到如何利用蒙特卡罗方法来随机模拟求解一些复杂的连续积分或者离散求和方法。但蒙特卡罗方法需要得到对应的概率分布的样本集,而对于某些概率分布,得到这样的样本集很困难,因此本篇我们将介绍马尔可夫链来解决这种问题。1.马尔可夫链简介马尔可夫链定义比较简单,它假设某一时刻状态转移的概率只依赖于它的前一个状态,这样可以很大程度上简化模型的复杂度。假设我们的序列状态为$...,X
1.MCMC简介马尔可夫链蒙克卡罗(Markov Chain Monte Carlo,MCMC)是一种随机采样方法,在机器学习、深度学习及自然语言处理等领域都有广泛的应用,是很多复杂算法求解的基础,例如受限玻尔兹曼机(RBM)便是用MCMC来做一些复杂算法的近似求解。在具体讲解什么是MCMC之前,我们先看看MCMC可以解决什么样的问题,为什么需要MCMC方法。2. 为什么需要MCMC?假如我们需要