详解准确率、精确率、召回率、F1值等评价指标的含义

机器学习问题之中,通常需要建立模型来解决具体问题,但对于模型的好坏,也就是模型的泛化能力,如何进行评估呢?很简单,我们可以定一些评价指标,来度量模型的优劣。比如准确率、精确率、召回率、F1值、ROC、AUC等指标,但是你清楚这些指标的具体含义吗?下面我们一起来看看吧。1.混淆矩阵介绍各个指标之前,我们先来了解一下混淆矩阵。假如现在有一个二分类问题,那么预测结果和实际结果两两结合会出现如下四种情况。

- 阅读全文 -

机器学习降维之线性判别模型(LDA)

1.LDA简介线性判别分析(Linear Discriminant Analysis, LDA)是一种监督学习的降维方法,也就是说数据集的每个样本是有类别输出。和之前介绍的机器学习降维之主成分分析(PCA)方法不同,PCA是不考虑样本类别输出的无监督学习方法。LDA的原理简单来说就是将带上标签的数据(点),通过投影的方法,投影到维度更低的空间中,使得投影后的点会形成按类别区分。而我们的目标就是使得

- 阅读全文 -

机器学习降维之奇异值分解(SVD)

奇异值分解(Singular Value Decompostion, SVD)是在机器学习领域广泛应用的算法,不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域,是很多机器学习算法的基石。本篇文章对SVD原理做主要讲解,在学习之前,确保你已经熟悉线性代数中的基本知识,包括特征值、特征向量、相似矩阵相关知识点。如果不太熟悉的话,推荐阅读如下两篇文章,如何理解矩阵特征值?知乎

- 阅读全文 -

机器学习降维之主成分分析(PCA)

主成分分析(Principal components analysis, PCA)是最重要的降维方法之一,在数据压缩、消除冗余和数据噪音消除等方面有广泛的应用。通常我们提到降维算法,最先想到的就是PCA,下面我们对PCA原理进行介绍。1. PCA思想PCA就是找出数据中最主要的方面,用数据中最重要的方面来代替原始数据。假如我们的数据集是n维的,共有m个数据(x1,x2,...,xm),我们将这m个

- 阅读全文 -

机器学习之Apriori算法

1.Apriori算法简介Apriori算法是常用于挖掘出数据关联规则的算法,能够发现事物数据库中频繁出现的数据集,这些联系构成的规则可帮助用户找出某些行为特征,以便进行企业决策。例如,某食品商店希望发现顾客的购买行为,通过购物篮分析得到大部分顾客会在一次购物中同时购买面包和牛奶,那么该商店便可以通过降价促销面包的同时提高面包和牛奶的销量。了解Apriori算法推导之前,我们先介绍一些基本概念。事

- 阅读全文 -

机器学习之朴素贝叶斯算法

1.朴素贝叶斯简介朴素贝叶斯(Naive Bayesian)算法能够根据数据加先验概率来估计后验概率,在垃圾邮件分类、文本分类、信用等级评定等多分类问题中得到广泛应用。对于多数的分类算法,比如决策树、KNN等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系。但朴素贝叶斯和多数分类算法都不同,朴素贝叶斯是生成算法,也就是先找出特征输出Y和特征X的联合分布$P(X,Y)$ ,然后用$P

- 阅读全文 -

机器学习之K近邻(KNN)算法

1.KNN简介K近邻(K-Nearest Neighbors, KNN)算法既可处理分类问题,也可处理回归问题,其中分类和回归的主要区别在于最后做预测时的决策方式不同。KNN做分类预测时一般采用多数表决法,即训练集里和预测样本特征最近的K个样本,预测结果为里面有最多类别数的类别。KNN做回归预测时一般采用平均法,预测结果为最近的K个样本数据的平均值。其中KNN分类方法的思想对回归方法同样适用,因此

- 阅读全文 -

机器学习之K均值(K-Means)算法

1.K-Means简介K均值(K-Means)算法是无监督的聚类方法,实现起来比较简单,聚类效果也比较好,因此应用很广泛。K-Means算法针对不同应用场景,有不同方面的改进。我们从最传统的K-Means算法讲起,然后在此基础上介绍初始化质心优化K-Means++算法,距离计算优化Elkan K-Means算法和大样本情况下Mini Batch K-Means算法。K-Means算法的思想很简单,

- 阅读全文 -

机器学习之最大期望(EM)算法

1.EM算法简介最大期望(Expectation Maximum)算法是一种迭代优化算法,其计算方法是每次迭代分为期望(E)步和最大(M)步。我们先看下最大期望算法能够解决什么样的问题。假如班级里有50个男生和50个女生,且男生站左,女生站右。我们假定男生和女生的身高分布分别服从正态分布。这时我们用极大似然法,分别通过这50个男生和50个女生的样本来估计这两个正态分布的参数,便可知道男女身高分布的

- 阅读全文 -

机器学习之自适应增强(Adaboost)

1.Adaboost简介Adaptive boosting(自适应增强)是一种迭代算法,其核心思想是针对同一个训练集训练不同的弱分类器,然后把这些弱分类器集合起来,构成一个强分类器,Adaboost可处理分类和回归问题。了解Adaboost算法之前,我们先学习下Boost(增强)和Adaptive(自适应)的概念。1.1集成学习之Boosting集成学习不是单独的机器学习方法,而是通过构建并结合多

- 阅读全文 -

最新文章

最近回复

  • 谓之小一: 需要安装neo4j的。
  • kunji: 云服务器上只要安装Anaconda3吗?我用的是neo4j存储知...
  • 小林: 你的问题应该在于xxx.owl文件没有进行对应的修改
  • fushengwuyu: 博主你好,看了你的教程,收益良多,十分感谢。有个小问题,我启动f...
  • 谓之小一: 你好,我以前在ubuntu上也遇见过这个问题. 解决办法貌似是为...
  • walle: 您好,使用D2RQ(win10)时: 错误: 找不到或无法加载...
  • manyangyang: json2mysql部分有一些数据导入不到sql中,数据库中有些...
  • manyangyang: json2mysql部分有一些数据导入不到sql中,数据库中有些...
  • manyangyang: json2mysql部分有一些数据导入不到sql中,数据库中有些...
  • 谓之小一: 你好,所有代码都放在https://github.com/wei...

分类

标签

归档

其它