Spark计算引擎(Spark compute engine),工学-信息与通信工程-大数据处理-大数据分析-Spark计算引擎,为大规模数据处理而设计的快速通用的计算引擎。Spark计算引擎是美国加利福尼亚大学伯克利分校的算法、机器和人(algorithms machines and people,AMP)实验室所开源的Hadoop映射-化简(MapReduce)的通用并行框架。Spark拥有MapReduce所具有的优点,不同于MapReduce的是其工作中间输出结果可以保存在内存中,从而不再需要读写Hadoop分布式文件系统(Hadoop distributed file system,HDFS),因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark的核心概念是弹性分布式数据集(resilient distributed datasets,RDD)。