清点数据发掘范畴十大典范算法_满意度调查_品牌研究论文
国际威望的学术组织 the IEEE International Conference on Data Mining (ICDM) 2006 年 12 月评 选出了数据发掘范畴的十大典范算法: C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.
不仅仅是选中的十大算法,实在列入评比的 18 种算法,现实上随意拿出一种来都可以称得上 是典范算法,它们在数据发掘范畴都发生了极为深远的影响。
1. C4.5
C4.5 算法是机械进修算法中的一种分类决议计划树算法,个中间算法是 ID3 算法.
C4.5 算法继续 了 ID3 算法的长处,并在以下几方面对 ID3 算法举行了革新:
1) 用信息增益率来挑选属性,克服了用信息增益挑选属性时倾向挑选取值多的属性的不足;
2) 在树组织历程当中举行剪枝;
3) 可以完成对一连属性的离散化处置惩罚;
4) 可以对不完整数据举行处置惩罚。
C4.5 算法有以下长处:发生的分类划定规矩易于明白,准确率较高。
其瑕玷:在组织树的历程 中,须要对数据集举行屡次的递次扫描和排序,因而致使算法的低效。
2. The k-means algorithm 即 K-Means 算法
k-means algorithm 算法是一个聚类算法,把 n 的对象依据他们的属性分为 k 个支解,k < n。
它与处置惩罚夹杂正态散布的最大希冀算法很类似,由于他们都试图找到数据中天然聚类的中间。
它假定对象属性来自于空间向量,而且目的是使各个群组内部的均方偏差总和最小。
3. Support vector machines
支撑向量机,英文为 Support Vector Machine,简称 SV 机(论文中平常简称 SVM)。它是一种监视式进修的要领,它普遍的运用于统计分类以及回归剖析中。支撑向量机将向量映射到 一个更高维的空间里,在这个空间里竖立有一个最大间隔超平面。在离开数据的超平面的两 边建有两个互相平行的超平面。分开超平面使两个平行超平面的间隔最大化。假定平行超平 面间的间隔或差异越大,分类器的总偏差越小。一个极好的指南是 C.J.C Burges 的《形式识 别支撑向量机指南》。van der Walt 和 Barnard 将支撑向量机和其他分类器举行了比较。
4. The Apriori algorithm
Apriori 算法是一种最有影响的发掘布尔关联划定规矩频仍项集的算法。个中间是基于两阶段频集 头脑的递推算法。该关联划定规矩在分类上属于单维、单层、布尔关联划定规矩。在这里,一切支撑 度大于最小支撑度的项集称为频仍项集,简称频集。
5. 最大希冀(EM)算法
在统计盘算中,最大希冀(EM,Expectation–Maximization)算法是在几率(probabilistic)模 型中寻觅参数最大似然预计的算法,个中几率模子依赖于没法观察的隐蔽变量(Latent Variabl)。最大希冀常常用在机械进修和盘算机视觉的数据会聚(Data Clustering)范畴。
6. PageRank
PageRank 是 Google 算法的重要内容。 2001 年 9 月被授与美国专利,专利人是 Google 创始人 之一拉里•佩奇(Larry Page)。因而,PageRank 里的 page 不是指网页,而是指佩奇,即这个
品级要领是以佩奇来定名的。
PageRank 依据网站的外部链接和内部链接的数目和质量俩权衡网站的代价。PageRank 背地 的观点是,每一个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网 站投票越多。这个就是所谓的―链接盛行度‖——权衡多少人情愿将他们的网站和你的网站挂 钩。PageRank 这个观点引自学术中一篇论文的被引述的频度——即被他人引述的次数越多, 平常推断这篇论文的威望性就越高。
7. AdaBoost
Adaboost 是一种迭代算法,个中间头脑是针对同一个练习集练习差别的分类器(弱分类器), 然后把这些弱分类器集合起来,组成一个更强的终究分类器 (强分类器)。其算法自身是经由过程 转变数据散布来完成的,它依据每次练习集当中每一个样本的分类是不是准确,以及上次的整体 分类的准确率,来肯定每一个样本的权值。将修悛改权值的新数据集送给基层分类器举行练习, 末了将每次练习获得的分类器末了融会起来,作为末了的决议计分别类器。
8. kNN: k-nearest neighbor classification
K 最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的要领,也是最单 的机械进修算法之一。该要领的思绪是:假如一个样本在特性空间中的 k 个最类似(即特性空 间中最相近)的样本中的大多数属于某一个种别,则该样本也属于这个种别。
9. Naive Bayes
在浩瀚的分类模子中,运用最为普遍的两种分类模子是决议计划树模子(Decision Tree Model)和朴 素贝叶斯模子(Naive Bayesian Model,NBC)。 质朴贝叶斯模子发源于古典数学理论,有着 坚固的数学基本,以及稳固的分类效力。同时,NBC 模子所需预计的参数很少,对缺失数据 不太敏感,算法也比较简单。理论上,NBC 模子与其他分类要领比拟具有最小的偏差率。但 是现实上并不是老是云云,这是由于 NBC 模子假定属性之间互相自力,这个假定在现实运用 中往往是不成的,这给 NBC 模子的准确分类带来了肯定影响。在属性个数比较多或许属 性之间相关性较大时,NBC 模子的分类效力比不上决议计划树模子。而在属性相关性较小时, NBC 模子的机能最为优越。
10. CART: 分类与回归树
CART, Classification and Regression Trees。 在分类树下面有两个症结的头脑。第一个是关于 递归地分别自变量空间的主意;第二个主意是用考证数据举行剪枝。
by:平江夜谈
End.
,
盈海咨询是一家专业的满意度调查公司,2005年成立,我们服务的客户80%以上均为世界500强企业以及行业知名企业;
经过多年的发展,建立了适合中国社会调查的独有调查网络,可提供全方位市场调查跟踪服务。咨询电话:010-86399425
互联网行为大数据应用于品牌测量的探索
互联网行为大数据应用于品牌测量的探索