清点数据发掘范畴十大典范算法_满意度调查_品牌研究论文

2018-12-12 23:01:36 盈海咨询

市场研究_市场调查公司_调研公司——盈海咨询

国际威望的学术组织 the IEEE International Conference on Data Mining (ICDM) 2006 年 12 月评选出了数据发掘范畴的十大典范算法： C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.

不仅仅是选中的十大算法，实在列入评比的 18 种算法，现实上随意拿出一种来都可以称得上是典范算法，它们在数据发掘范畴都发生了极为深远的影响。

1. C4.5

C4.5 算法是机械进修算法中的一种分类决议计划树算法,个中间算法是 ID3 算法.

C4.5 算法继续了 ID3 算法的长处，并在以下几方面对 ID3 算法举行了革新：

1) 用信息增益率来挑选属性，克服了用信息增益挑选属性时倾向挑选取值多的属性的不足；
2) 在树组织历程当中举行剪枝；
3) 可以完成对一连属性的离散化处置惩罚；
4) 可以对不完整数据举行处置惩罚。

C4.5 算法有以下长处：发生的分类划定规矩易于明白，准确率较高。

其瑕玷：在组织树的历程中，须要对数据集举行屡次的递次扫描和排序，因而致使算法的低效。

2. The k-means algorithm 即 K-Means 算法

k-means algorithm 算法是一个聚类算法，把 n 的对象依据他们的属性分为 k 个支解，k < n。

它与处置惩罚夹杂正态散布的最大希冀算法很类似，由于他们都试图找到数据中天然聚类的中间。

它假定对象属性来自于空间向量，而且目的是使各个群组内部的均方偏差总和最小。

3. Support vector machines

支撑向量机，英文为 Support Vector Machine，简称 SV 机（论文中平常简称 SVM）。它是一种监视式进修的要领，它普遍的运用于统计分类以及回归剖析中。支撑向量机将向量映射到一个更高维的空间里，在这个空间里竖立有一个最大间隔超平面。在离开数据的超平面的两边建有两个互相平行的超平面。分开超平面使两个平行超平面的间隔最大化。假定平行超平面间的间隔或差异越大，分类器的总偏差越小。一个极好的指南是 C.J.C Burges 的《形式识别支撑向量机指南》。van der Walt 和 Barnard 将支撑向量机和其他分类器举行了比较。

4. The Apriori algorithm

Apriori 算法是一种最有影响的发掘布尔关联划定规矩频仍项集的算法。个中间是基于两阶段频集头脑的递推算法。该关联划定规矩在分类上属于单维、单层、布尔关联划定规矩。在这里，一切支撑度大于最小支撑度的项集称为频仍项集，简称频集。

5. 最大希冀(EM)算法

在统计盘算中，最大希冀（EM，Expectation–Maximization）算法是在几率（probabilistic）模型中寻觅参数最大似然预计的算法，个中几率模子依赖于没法观察的隐蔽变量（Latent Variabl）。最大希冀常常用在机械进修和盘算机视觉的数据会聚（Data Clustering）范畴。

6. PageRank

PageRank 是 Google 算法的重要内容。 2001 年 9 月被授与美国专利，专利人是 Google 创始人之一拉里•佩奇（Larry Page）。因而，PageRank 里的 page 不是指网页，而是指佩奇，即这个
品级要领是以佩奇来定名的。

PageRank 依据网站的外部链接和内部链接的数目和质量俩权衡网站的代价。PageRank 背地的观点是，每一个到页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。这个就是所谓的―链接盛行度‖——权衡多少人情愿将他们的网站和你的网站挂钩。PageRank 这个观点引自学术中一篇论文的被引述的频度——即被他人引述的次数越多，平常推断这篇论文的威望性就越高。

7. AdaBoost

Adaboost 是一种迭代算法，个中间头脑是针对同一个练习集练习差别的分类器(弱分类器)，然后把这些弱分类器集合起来，组成一个更强的终究分类器 (强分类器)。其算法自身是经由过程转变数据散布来完成的，它依据每次练习集当中每一个样本的分类是不是准确，以及上次的整体分类的准确率，来肯定每一个样本的权值。将修悛改权值的新数据集送给基层分类器举行练习，末了将每次练习获得的分类器末了融会起来，作为末了的决议计分别类器。

8. kNN: k-nearest neighbor classification

K 最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的要领，也是最单的机械进修算法之一。该要领的思绪是：假如一个样本在特性空间中的 k 个最类似(即特性空间中最相近)的样本中的大多数属于某一个种别，则该样本也属于这个种别。

9. Naive Bayes

在浩瀚的分类模子中，运用最为普遍的两种分类模子是决议计划树模子(Decision Tree Model)和朴素贝叶斯模子（Naive Bayesian Model，NBC）。质朴贝叶斯模子发源于古典数学理论，有着坚固的数学基本，以及稳固的分类效力。同时，NBC 模子所需预计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC 模子与其他分类要领比拟具有最小的偏差率。但是现实上并不是老是云云，这是由于 NBC 模子假定属性之间互相自力，这个假定在现实运用中往往是不成的，这给 NBC 模子的准确分类带来了肯定影响。在属性个数比较多或许属性之间相关性较大时，NBC 模子的分类效力比不上决议计划树模子。而在属性相关性较小时， NBC 模子的机能最为优越。

10. CART: 分类与回归树

CART, Classification and Regression Trees。在分类树下面有两个症结的头脑。第一个是关于递归地分别自变量空间的主意；第二个主意是用考证数据举行剪枝。

by：平江夜谈

End.

盈海咨询是一家专业的满意度调查公司，2005年成立，我们服务的客户80%以上均为世界500强企业以及行业知名企业；
经过多年的发展，建立了适合中国社会调查的独有调查网络，可提供全方位市场调查跟踪服务。咨询电话：010-86399425

互联网行为大数据应用于品牌测量的探索

互联网行为大数据应用于品牌测量的探索

清点数据发掘范畴十大典范算法_满意度调查_品牌研究论文

业务领域

服务内容

解决方案