摘要
語音領域在近年來得到很大的關注,不管是智能音箱,或者是未來的元宇宙,語音服務都佔重要的一席之地。而其中,負責聽懂話語的「語音辨識」,以及負責產生話語的「語音合成」,皆是不可或缺的關鍵技術。在多數情境下,不管是語音辨識或語音合成都需要應用到中間產物——標音(phoneme),標音是橋接文字與發音的符號系統,在英文有KK音標來表示單字的發音,在中文有注音、拼音來表示中文字的發音。然而中文存在著一字多音的破音字,而這樣的破音字是需要根據上下文來決定讀音的,這是一個困難的問題,因此我們需要一個能夠理解上下文的AI標音模型。我們建構並開源了基於Python的g2pW套件(https://github.com/GitYCC/g2pW),這是一個基於BERT的衍生模型。本演講將分為兩個區塊,前半段介紹這個強大的中文標音套件,並且介紹g2pW的模型創新及驗證,後半段則著重在如何使用Pytorch+Huggingface框架實現基於BERT的衍生模型g2pW,Huggingface框架已成了自然語言處理的一把瑞士刀,我們可以快速的基於它建立起Transformer深度學習模型,在本講中我們將會帶大家一窺其神秘面紗。
說明
影片
地點
R0
時間
第一天 • 11:25-11:55 (GMT+8)
語言
中文演講/英文投影片
層級
中階
分類
自然語言處理