Apache Spark是專為大規(guī)模數(shù)據(jù)計算而設計的快速通用的計算引擎,是一種與 Hadoop 相似的開源集群計算環(huán)境,但是兩者之間還存在一些不同之處,這些不同之處使 Spark 在某些工作負載方面表現(xiàn)得更加優(yōu)越。換句話說,Spark 啟用了內存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負載。Spark SQL是Spark的計算模塊之一,專門用于處理結構化的數(shù)據(jù)。Spark SQL允許用戶使用標準的SQL語句來執(zhí)行SQL的查詢和讀寫,也可以使用Hive SQL來執(zhí)行對Hive倉庫的查詢和讀寫。