Python HDF5 Use Case

Speaker

Liang Bo Wang /Mandarin

Tags

HDF5, Numpy

Abstract

HDF5 是一個用來存取數據的函式庫,Matlab 的儲存格式 (.mat) 即基於該格式設計。相較於多數人熟悉的 Database,HDF5 的功能更為單純,它只負責做好讀取、 儲存資料而並不提供 Query、Join 等操作,但也因此在 I/O 表現上更為出色。常見的應用為 sensor、實驗數據記錄與傳輸、大矩陣的操作等。HDF5 在 Python 的接口實作主要有 PyTables 及 h5py,兩者針對不同的使用情境有不同的設計。 在本 talk 中,會先介紹 HDF5 格式與特色,在 Python 中如何用 PyTables、h5py 存取 與異同,以及與主流資料庫、pickle 物件串流化的比較。最後示範 HDF5 如何有效的完成 以下幾個情境中的問題:存取 pandas DataFrame 物件、在大型矩陣進行區域計算、追蹤 Deep Learning 學習記錄。

About Speaker


Profile picture
A master student active in Taipei Python and R meetups. His research topic focuses on network analysis of cancer genetics. After his intern in MSRA, he's currently working on digital histopathology analysis using convolutional neural network (CNN).

Personal Link

http://liang2.tw/

Twitter

@ccwang002

Organization/Company

Bioinfo & Biostat Core Lab, NTU CGM

Job title

Student