数据资源: 中文期刊论文

基于云环境K-means聚类的并行算法



编号 zgly0000979733

文献类型 期刊论文

文献题名 基于云环境K-means聚类的并行算法

作者 高榕  李晶  肖雅夫  祝孙静  彭卫平 

作者单位 武汉大学计算机学院  武汉大学动力与机械学院 

母体文献 武汉大学学报;理学版 

年卷期 2015(4)

页码 368-374

年份 2015 

关键词 海量数据  聚类  K-means算法  Canopy算法  MapReduce 

文摘内容 K-means聚类算法只能保证算法收敛到局部最优,从而导致聚类结果对初始点的选择非常依赖,同时在面对海量数据时容易因运算次数增多而使聚类过程耗时增加.针对上述问题及结合海量数据的特性,本文提出了一种基于云环境的并行聚类算法,该算法利用Canopy聚类算法思想并结合二分查找思想对K-means算法进行优化,同时采用极限点原则使之避免了聚类过程中的局部最优,然后利用顺序组合式MapReduce编程模型实现了算法的并行化扩展.实验结果表明:在大数据集上,该算法比同样部署在Hadoop集群上运行的K-means算法,在加速比、准确率、扩展率、算法效率方面具有较大的优势。

相关图谱

扫描二维码