近年來Machine Learning及Big Data相關議題襲捲於世界各地,坊間研討會、速成課程四起,台灣工商業圈也不落人後,大舉徵用相關人才,意圖導入BI (Business Intelligence)的概念,利用資料的收集與整理,規劃產生Data Model,並輔以企業的Domain know-how來進行資料分析,最後實作出加值應用或自動化決策系統。
本演講以BI前期的ETL (Extract-Load-Transform)階段為主軸,以企業中的異質(Heterogeneous)環境和非結構化資料(Unstructured Data)的收集與整理來貫穿主題,講述身為Data Engineer如何在User們對AI的天馬行空中感到哀怨,這些哀怨又與Python交織出怎樣的愛恨情仇,讓我們看下去!
#### 演講大綱介紹
1. 簡單敘述身為Data engineer在專案中的角色,及如何利用ETL流程串接資料流及為後續分析提供轉換格式後的資料
2. 介紹各種開源套件的使用範例、場景,進一步提及安裝、踩雷經驗及其他tips (人體Stackoverflow)
3. 最後以兩個過去的專案進行實務經驗分享,其一為在欠缺基礎建設下利用手邊資源建立資料倉儲管道,其二為資料整合與開發系統化應用,在User的過度需求和開發資源的缺乏供給中尋找平衡
#### 演講中會介紹到的Python套件
- [pywin32] Windows上可用來處理Office系列文件的Win32 API for Python
- [pdftabextract] 一個協助讀取PDF文件中表格的開源專案,可處理利用OCR轉化過的PDF文件並擷取表格結構及文字
- [textract] 幾乎可以從任何類型的文件擷取出文字,是一個成熟的開源套件
[pywin32]: https://github.com/Googulator/pypiwin32
[pdftabextract]: https://github.com/WZBSocialScienceCenter/pdftabextract
[textract]: https://textract.readthedocs.io/en/stable/