数据挖掘十大经典算法，想从事数据挖掘就不得不看

更新时间:2019-12-11 来源:黑马程序员浏览量:

（1）C4.5：算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：

1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；

2) 在树构造过程中进行剪枝；

3) 能够完成对连续属性的离散化处理；

4) 能够对不完整数据进行处理。

C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。

1576043352235_数据挖掘算法.jpg

（2）朴素贝叶斯(naive bayes): 朴素贝叶斯是给予概率论的原理，它的思想是对于给出的未知无题要进行分类，需要求解在这个未知物体出现的条件下各个类别出现的概率，找最大概率那个分类，数据更新影响思想。

（3）SVM：中文叫支持向量机：Support Vector Machine,SVM 在训练中简历了一个超平面的分类模型。

（4）KNN： K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。

该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

（5）Adaboost: 在悬链中简历一个联合分类模型，boost 提升的意思，所以adaboost是个构建分类模型器的提升算法，它可以让多个弱的分类器组成一个强的分类器。

（6）CART： CART戴表分类和回归树，Classification and Regression Trees. 构建了两棵树，一颗分类树，一个回归树，是一个决策树学习算法。

（7）Apriori是一个挖掘关联规则(association rules)的算法，通过挖掘频繁顶集(frequent item sets)来解释物品之间的关联关系，被广泛应用于商业挖掘和网络安全领域中，频繁项集是一个指经常出现在一起的物品集合，关联规则按时着两种物品之间可能存在很强的关系。

（8）K-Means：k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k < n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。

（9）EM: EM算法也叫最大期望算法，是求参数的最大似然估计的一种算法，原理是这样的：假设我们想要评估参数A和参数B，在开始状态下二者都是未知的，并且知道了A的信息就可以得到B的信息，反过来知道了B的也就得到A的，可以考虑首先赋予A某个初值，以此得到B的估值，然后从B的估值出发，重新估计A的取值，这个过程一直持续到收敛未知。推荐了解，黑马程序员大数据培训课程。

（10）PageRank: 起源于论文的影响力的计算方式，如果一篇论文被引入次数越多，就代表这篇论文的影响力越强，PageRank被Google创造性地应用到了网页权重的计算中，当一个页面链接的页面越多，说明这个页面的‘参考文献’越多，当这个页面被链入的频率越高，说明这个页面的引用次数越高，基于这个原理，我们可以得到网站的权重划分。

全国中心

热门课程

数据挖掘十大经典算法，想从事数据挖掘就不得不看

最新资讯

相关阅读

热门课程推荐