AI 認注音：使用huggingface framework建構開源標音系統g2pW

陳宜昌

大家好！我是YC，是一名資料科學家，熟悉機器學習和深度學習的各類技術，以及大數據分散式系統架構，領域包括：CV、NLP、推薦系統及語音；同時，我也是一名吉他手和部落客，經營技術部落格「YC Note」五年多。我總是嘗試各種生命的可能性，因為我深信：人生的意義在於體驗一切身為人的經驗。

摘要

語音領域在近年來得到很大的關注，不管是智能音箱，或者是未來的元宇宙，語音服務都佔重要的一席之地。而其中，負責聽懂話語的「語音辨識」，以及負責產生話語的「語音合成」，皆是不可或缺的關鍵技術。在多數情境下，不管是語音辨識或語音合成都需要應用到中間產物——標音(phoneme)，標音是橋接文字與發音的符號系統，在英文有KK音標來表示單字的發音，在中文有注音、拼音來表示中文字的發音。然而中文存在著一字多音的破音字，而這樣的破音字是需要根據上下文來決定讀音的，這是一個困難的問題，因此我們需要一個能夠理解上下文的AI標音模型。我們建構並開源了基於Python的g2pW套件(https://github.com/GitYCC/g2pW)，這是一個基於BERT的衍生模型。本演講將分為兩個區塊，前半段介紹這個強大的中文標音套件，並且介紹g2pW的模型創新及驗證，後半段則著重在如何使用Pytorch+Huggingface框架實現基於BERT的衍生模型g2pW，Huggingface框架已成了自然語言處理的一把瑞士刀，我們可以快速的基於它建立起Transformer深度學習模型，在本講中我們將會帶大家一窺其神秘面紗。

說明

Slides

影片

地點

時間

第一天 • 11:25-11:55 (GMT+8)

語言

中文演講/英文投影片

層級

中階

分類

自然語言處理