全国咨询/投诉热线:400-618-9090

首页新闻动态正文

数据挖掘十大经典算法,想从事数据挖掘就不得不看

更新时间:2020年04月07日 23时31分35秒 来源:黑马程序员

(1)C4.5:算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:

1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;

2) 在树构造过程中进行剪枝;

3) 能够完成对连续属性的离散化处理;

4) 能够对不完整数据进行处理。

C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。

1576043352235_数据挖掘算法.jpg

(2)朴素贝叶斯(naive bayes):  朴素贝叶斯是给予概率论的原理,它的思想是对于给出的未知无题要进行分类,需要求解在这个未知物体出现的条件下各个类别出现的概率,找最大概率那个分类,数据更新影响思想。

(3)SVM:中文叫支持向量机:Support Vector Machine,SVM  在训练中简历了一个超平面的分类模型。

(4)KNN: K最近邻(k-Nearest  Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。

该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

(5)Adaboost: 在悬链中简历一个联合分类模型,boost  提升的意思,所以adaboost是个构建分类模型器的提升算法,它可以让多个弱的分类器组成一个强的分类器。

(6)CART: CART戴表分类和回归树,Classification and Regression Trees.  构建了两棵树,一颗分类树,一个回归树,是一个决策树学习算法。

(7)Apriori是一个挖掘关联规则(association  rules)的算法,通过挖掘频繁顶集(frequent item  sets)来解释物品之间的关联关系,被广泛应用于商业挖掘和网络安全领域中,频繁项集是一个指经常出现在一起的物品集合,关联规则按时着两种物品之间可能存在很强的关系。

(8)K-Means:k-means  algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k <  n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。

(9)EM: EM算法也叫最大期望算法,是求参数的最大似然估计的一种算法,原理是这样的:假设我们想要评估参数A和参数B,在开始状态下二者都是未知的,并且知道了A的信息就可以得到B的信息,反过来知道了B的也就得到A的,可以考虑首先赋予A某个初值,以此得到B的估值,然后从B的估值出发,重新估计A的取值,这个过程一直持续到收敛未知。推荐了解,黑马程序员大数据培训课程

(10)PageRank: 起源于论文的影响力的计算方式,如果一篇论文被引入次数越多,就代表这篇论文的影响力越强,PageRank被Google创造性地应用到了网页权重的计算中,当一个页面链接的页面越多,说明这个页面的‘参考文献’越多,当这个页面被链入的频率越高,说明这个页面的引用次数越高,基于这个原理,我们可以得到网站的权重划分。


在线咨询 我要报名