编号
zgly0000979733
文献类型
期刊论文
文献题名
基于云环境K-means聚类的并行算法
作者单位
武汉大学计算机学院
武汉大学动力与机械学院
母体文献
武汉大学学报;理学版
年卷期
2015(4)
页码
368-374
年份
2015
关键词
海量数据
聚类
K-means算法
Canopy算法
MapReduce
文摘内容
K-means聚类算法只能保证算法收敛到局部最优,从而导致聚类结果对初始点的选择非常依赖,同时在面对海量数据时容易因运算次数增多而使聚类过程耗时增加.针对上述问题及结合海量数据的特性,本文提出了一种基于云环境的并行聚类算法,该算法利用Canopy聚类算法思想并结合二分查找思想对K-means算法进行优化,同时采用极限点原则使之避免了聚类过程中的局部最优,然后利用顺序组合式MapReduce编程模型实现了算法的并行化扩展.实验结果表明:在大数据集上,该算法比同样部署在Hadoop集群上运行的K-means算法,在加速比、准确率、扩展率、算法效率方面具有较大的优势。