AI 認注音:使用huggingface framework建構開源標音系統g2pW

陳宜昌

陳宜昌

大家好!我是YC,是一名資料科學家,熟悉機器學習和深度學習的各類技術,以及大數據分散式系統架構,領域包括:CV、NLP、推薦系統及語音;同時,我也是一名吉他手和部落客,經營技術部落格「YC Note」五年多。我總是嘗試各種生命的可能性,因為我深信:人生的意義在於體驗一切身為人的經驗。

    摘要

    語音領域在近年來得到很大的關注,不管是智能音箱,或者是未來的元宇宙,語音服務都佔重要的一席之地。而其中,負責聽懂話語的「語音辨識」,以及負責產生話語的「語音合成」,皆是不可或缺的關鍵技術。在多數情境下,不管是語音辨識或語音合成都需要應用到中間產物——標音(phoneme),標音是橋接文字與發音的符號系統,在英文有KK音標來表示單字的發音,在中文有注音、拼音來表示中文字的發音。然而中文存在著一字多音的破音字,而這樣的破音字是需要根據上下文來決定讀音的,這是一個困難的問題,因此我們需要一個能夠理解上下文的AI標音模型。我們建構並開源了基於Python的g2pW套件(https://github.com/GitYCC/g2pW),這是一個基於BERT的衍生模型。本演講將分為兩個區塊,前半段介紹這個強大的中文標音套件,並且介紹g2pW的模型創新及驗證,後半段則著重在如何使用Pytorch+Huggingface框架實現基於BERT的衍生模型g2pW,Huggingface框架已成了自然語言處理的一把瑞士刀,我們可以快速的基於它建立起Transformer深度學習模型,在本講中我們將會帶大家一窺其神秘面紗。

    說明

    影片

    地點

    R0

    時間

    第一天 • 11:25-11:55 (GMT+8)

    語言

    中文演講/英文投影片

    層級

    中階

    分類

    自然語言處理