我們看到的性能改進
Posted: Wed Dec 04, 2024 8:17 am
在本節中,我們將查看測試結果,以說明在 Spark 應用程式中添加 Gluten 如何提高效能。詳細配置資訊請參閱部落格末尾。我們使用了兩種不同的基準測試工具。其中一個基於 TPC-DS,對具有 99 個單獨資料庫查詢的通用決策支援系統進行建模。(2)另一個基於 TPC-H,對具有 10 個單獨資料庫查詢的通用決策支援系統進行建模。(3)對於這兩者,我們測量了單一使用者針對 Spark SQL 叢集完成一次所有查詢所花費的時間。
第四代英特爾® 至強® 可擴充處理器
首先,我們將研究將 Gluten 添加到在配備第四代 Intel Xeon 可擴展處理器的伺服器上運行的 Spark SQL 的效能影響。如下圖所示,添加麩質可使性能提高 3.12 倍。在類似 TPC-H 的工作負載上,加速器使系統 香港流動電話號碼表 完成十個資料庫查詢的速度提高了三倍以上。在類似 TCP-DS 的工作負載上,Gluten 將完成所有 99 個資料庫查詢的速度提高了一倍以上。這些改進意味著答案將更快地到達決策者手中,從而展示了將 Gluten 添加到 Spark SQL 工作負載的價值。
第五代英特爾® 至強® 可擴充處理器
接下來,讓我們來看看 Gluten 如何在配備第五代 Intel Xeon 可擴展處理器的伺服器上加速 Spark SQL 工作負載。如下圖所示,與使用舊處理器的伺服器相比,我們看到了更大的改進,使用 Gluten 時效能高達 3.34 倍。如果您的資料中心有這一代伺服器,將 Gluten 納入您的環境中可以讓您從硬體中獲得更多收益並縮短獲得洞察的時間。
對雲的影響
雖然我們在資料中心的裸機硬體上進行了這些測試,但它們清楚地證明了 Gluten 提高效能的潛力,即使在雲端也是如此。如果您在雲端中運行 Spark,您不僅會看到我們在先前的部落格中討論的好處,而且還可以透過添加 Gluten 享受進一步的效能改進。
結論
無論您是在配備第五代英特爾至強可擴展處理器還是上一代的伺服器上執行 Spark SQL 工作負載,快速完成分析對於您公司的成功至關重要。英特爾處理器可以透過針對指令集調整的本機庫來提高效能,而 Gluten 可以透過將 JVM 資料處理卸載到本機庫來利用這一點。
我們的測試表明,將 Gluten 外掛程式新增至 Spark SQL 工作負載可以是一種簡單的方法,可以將伺服器完成資料庫查詢的速度提高一倍甚至三倍。透過提供高達 3.34 倍的效能,利用 Gluten 可以幫助您的組織最大限度地提高資料分析工作負載。
第四代英特爾® 至強® 可擴充處理器
首先,我們將研究將 Gluten 添加到在配備第四代 Intel Xeon 可擴展處理器的伺服器上運行的 Spark SQL 的效能影響。如下圖所示,添加麩質可使性能提高 3.12 倍。在類似 TPC-H 的工作負載上,加速器使系統 香港流動電話號碼表 完成十個資料庫查詢的速度提高了三倍以上。在類似 TCP-DS 的工作負載上,Gluten 將完成所有 99 個資料庫查詢的速度提高了一倍以上。這些改進意味著答案將更快地到達決策者手中,從而展示了將 Gluten 添加到 Spark SQL 工作負載的價值。
第五代英特爾® 至強® 可擴充處理器
接下來,讓我們來看看 Gluten 如何在配備第五代 Intel Xeon 可擴展處理器的伺服器上加速 Spark SQL 工作負載。如下圖所示,與使用舊處理器的伺服器相比,我們看到了更大的改進,使用 Gluten 時效能高達 3.34 倍。如果您的資料中心有這一代伺服器,將 Gluten 納入您的環境中可以讓您從硬體中獲得更多收益並縮短獲得洞察的時間。
對雲的影響
雖然我們在資料中心的裸機硬體上進行了這些測試,但它們清楚地證明了 Gluten 提高效能的潛力,即使在雲端也是如此。如果您在雲端中運行 Spark,您不僅會看到我們在先前的部落格中討論的好處,而且還可以透過添加 Gluten 享受進一步的效能改進。
結論
無論您是在配備第五代英特爾至強可擴展處理器還是上一代的伺服器上執行 Spark SQL 工作負載,快速完成分析對於您公司的成功至關重要。英特爾處理器可以透過針對指令集調整的本機庫來提高效能,而 Gluten 可以透過將 JVM 資料處理卸載到本機庫來利用這一點。
我們的測試表明,將 Gluten 外掛程式新增至 Spark SQL 工作負載可以是一種簡單的方法,可以將伺服器完成資料庫查詢的速度提高一倍甚至三倍。透過提供高達 3.34 倍的效能,利用 Gluten 可以幫助您的組織最大限度地提高資料分析工作負載。