简介:Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark已正式申请加入Apache孵化器,从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突起的新锐。本文主要讲述Spark的设计思想。
简介:针对K-means算法在数据聚类过程中初始值选取的随机性问题,基于非均匀采样原则对该算法进行改进。同时,针对聚类算法并行化的需求,基于Spark平台对改进算法进行了并行化实现。单机串行处理和集群并行化实验证明了该改进算法在处理海量数据集时具有更高的准确性和稳定性,且在Spark平台上的并行化实现具有良好的加速比和可扩展性,从而表明该算法能在实际的海量数据处理中高效运行。
简介:艾讯科技(AXIOMTEK)公司1990年成立于台湾,由一群充满开拓精神的年轻工程师所发起一多年来,已成为世界工业计算机领域公认的主要设计者和制造者。从公司建立以来,以自创的设计和对满足所有客户的保证,已经成功地获得全世界的赞誉。
Spark:大数据的“电光石火”
基于Spark平台的K-means聚类算法改进及并行化实现
存储现在 把握未来——访艾讯科技存储事业部总负责人Spark chen