Spark计算引擎

（工学 | 信息与通信工程）

Spark计算引擎（Spark compute engine），工学-信息与通信工程-大数据处理-大数据分析-Spark计算引擎，为大规模数据处理而设计的快速通用的计算引擎。Spark计算引擎是美国加利福尼亚大学伯克利分校的算法、机器和人（algorithms machines and people，AMP）实验室所开源的Hadoop映射-化简（MapReduce）的通用并行框架。Spark拥有MapReduce所具有的优点，不同于MapReduce的是其工作中间输出结果可以保存在内存中，从而不再需要读写Hadoop分布式文件系统（Hadoop distributed file system，HDFS），因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark的核心概念是弹性分布式数据集（resilient distributed datasets，RDD）。