Spark Task Optimization Journey: How I Increased 10x Speed by Performance Tuning

游騰林

Hi, I'm a Data scientist from Cathay United Bank in Taiwan. I have over eight years of hands-on experience in large-scale backend and AI/ML technology applications in digital marketing and customer service.

Abstract

公司長期以來存在某些工作排程需要較長的執行時間，由於專案使用的資料表本身就較為肥大，大家很容易"自然"的就接受了這些排程需要較長執行時間、資源的現狀。然而隨著上線的工作排程數量的快速增加，系統負擔、效能的問題也就開始受到越來越多的重視。在盲目加大硬體資源的處理方案外，其實我們還可以從 spark的資源配置、pyspark參數設定以及程式邏輯等面向進行優化，讓工作排程能有最佳的執行效率，同時又不佔用過多的系統資源用說的很簡單，實際要開始優化程式時還是得先了解 spark 的運作邏輯，以及 pyspark 提供的 API 參數意義開始。在這次的演講中我將以公司某項工作排程為例，和大家分享我分析這項工作排程的思路，並說明我逐步測試、優化的過程，最終成功將排程的執行時間從 5 小時大幅縮短至 30 分鐘。希望通過這次的分享幫助資料科學家、商業分析師與資料工程師更有效率的完成手上的工作!

Description

Slides

Location

Date

Day 1 • 13:05-13:35 (GMT+8)

Language

Chinese talk w. Chinese slides

Level

Intermediate