BI 前的悲哀—那些 User 所謂的 Big(?) Data

R1
Day 2, 16:15‑16:45
Category: Best Practices & Patterns
Language: Chinese talk w. English slides
Python Level: Intermediate

Abstract

近年來Machine Learning及Big Data相關議題襲捲於世界各地，坊間研討會、速成課程四起，台灣工商業圈也不落人後，大舉徵用相關人才，意圖導入BI (Business Intelligence)的概念，利用資料的收集與整理，規劃產生Data Model，並輔以企業的Domain know-how來進行資料分析，最後實作出加值應用或自動化決策系統。

本演講以BI前期的ETL (Extract-Load-Transform)階段為主軸，以企業中的異質(Heterogeneous)環境和非結構化資料(Unstructured Data)的收集與整理來貫穿主題，講述身為Data Engineer如何在User們對AI的天馬行空中感到哀怨，這些哀怨又與Python交織出怎樣的愛恨情仇，讓我們看下去！

Description

#### 演講大綱介紹 1. 簡單敘述身為Data engineer在專案中的角色，及如何利用ETL流程串接資料流及為後續分析提供轉換格式後的資料 2. 介紹各種開源套件的使用範例、場景，進一步提及安裝、踩雷經驗及其他tips (人體Stackoverflow) 3. 最後以兩個過去的專案進行實務經驗分享，其一為在欠缺基礎建設下利用手邊資源建立資料倉儲管道，其二為資料整合與開發系統化應用，在User的過度需求和開發資源的缺乏供給中尋找平衡 #### 演講中會介紹到的Python套件 - [pywin32] Windows上可用來處理Office系列文件的Win32 API for Python - [pdftabextract] 一個協助讀取PDF文件中表格的開源專案，可處理利用OCR轉化過的PDF文件並擷取表格結構及文字 - [textract] 幾乎可以從任何類型的文件擷取出文字，是一個成熟的開源套件 [pywin32]: https://github.com/Googulator/pypiwin32 [pdftabextract]: https://github.com/WZBSocialScienceCenter/pdftabextract [textract]: https://textract.readthedocs.io/en/stable/

Slides

https://github.com/bingroom/PyConTW2019/blob/master/slides.pdf

Speaker

高振倫

Bingroom，迷途中的一個Python小書僮，由於之前Crawler寫太多，現在都在寫Parser還債。