Spark Task Optimization Journey: How I Increased 10x Speed by Performance Tuning

游騰林

游騰林

Hi, I'm a Data scientist from Cathay United Bank in Taiwan. I have over eight years of hands-on experience in large-scale backend and AI/ML technology applications in digital marketing and customer service.

    Abstract

    公司長期以來存在某些工作排程需要較長的執行時間,由於專案使用的資料表本身就較為肥大,大家很容易"自然"的就接受了這些排程需要較長執行時間、資源的現狀。然而隨著上線的工作排程數量的快速增加,系統負擔、效能的問題也就開始受到越來越多的重視。在盲目加大硬體資源的處理方案外,其實我們還可以從 spark的資源配置、pyspark參數設定以及程式邏輯等面向進行優化,讓工作排程能有最佳的執行效率,同時又不佔用過多的系統資源 用說的很簡單,實際要開始優化程式時還是得先了解 spark 的運作邏輯,以及 pyspark 提供的 API 參數意義開始。在這次的演講中我將以公司某項工作排程為例,和大家分享我分析這項工作排程的思路,並說明我逐步測試、優化的過程,最終成功將排程的執行時間從 5 小時大幅縮短至 30 分鐘。希望通過這次的分享幫助資料科學家、商業分析師與資料工程師更有效率的完成手上的工作!

    Description

    Location

    R1

    Date

    Day 1 • 13:05-13:35 (GMT+8)

    Language

    Chinese talk w. Chinese slides

    Level

    Intermediate

    Category

    Best Practices & Patterns