Apache Spark是專為大規(guī)模數(shù)據(jù)計(jì)算而設(shè)計(jì)的快速通用的計(jì)算引擎,是一種與 Hadoop 相似的開源集群計(jì)算環(huán)境,但是兩者之間還存在一些不同之處,這些不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越。換句話說,Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。Spark SQL是Spark的計(jì)算模塊之一,專門用于處理結(jié)構(gòu)化的數(shù)據(jù)。Spark SQL允許用戶使用標(biāo)準(zhǔn)的SQL語句來執(zhí)行SQL的查詢和讀寫,也可以使用Hive SQL來執(zhí)行對(duì)Hive倉(cāng)庫(kù)的查詢和讀寫。