Airflow 於 ETL 的初步應用

摘要

在做資料萃取(Extract)、轉置(Transform)、載入(Load)任務時,每個階段會有依賴性。為確保任務能順利執行,ETL的任務應該被妥當地管理與監控。

Airflow 是以 Python 開發的工作流管理系統,能幫助開發者做標準化及重複性的流程。Airflow 以 DAG 定義工作的流程,確保任務能依序執行。並且,可以使用 Web UI 方便監測、追溯各個流程之間的狀態。

本演講主要目的是初步介紹 Airflow 的功能,並應用 Airflow 於周期性地蒐集社群網路的文章做為範例,讓聽眾知道如何使用 Airflow 的介面,方便觀察與追溯每個排程任務之間的狀態。

說明

- [Airflow] 為用於控制 workflow兼排程的工具,主要是用 Python 作為開發 - [Sqlite] 免費的輕量資料庫 - [jiba] 中文斷詞系統 - [sklearn] 包含許多機器學習的演算法,本演講將用 tf-idf

投影片

https://docs.google.com/presentation/d/1-WUPfKM-rZ5l1HHKwO4tiHYj-o9NF4Dv/edit#slide=id.p41

講者

ZenoPeng

I am a data engineer.