自問自答:命名實體識別應用於精準醫療服務-以智能理賠為例

江侑倫

江侑倫

icon-location R1
icon-language 中文演講/中文投影片
icon-datetime 第一天 • 10:05-10:35
icon-level 中階
icon-category 自然語言處理

    摘要

    如何效率地從龐大的非結構化文字資料,萃取重要的結構化資訊是大數據分析的基礎。本次演講以結合金融業務與精準醫療為出發點,藉由智能理賠(醫囑分析)作為案例,探討如何透過自然語言處理技術,將瑣碎且重複性極高的作業流程逐步化繁為簡。 就技術而言,此乃自然語言處理領域中的命名實體識別任務。在現今預訓練與微調兩階段模式盛行之下,以Transformers為基調的模型在此任務已達一定水準。但是,當資料具有多含義實體(同一實體具有兩個以上含義,e.g. 急診日期通常也隱含了入院日期的含義)時,模型僅僅具備七成至八成的辨識水準,而多含義實體在醫囑資料或醫療文獻尤為常見,因此,我提出一種深度學習應用框架-自問自答,同時處理單含義與多含義實體。 以一篇醫囑來說,模型自問多個問題(e.g. 請找出入院日期。),根據這些問題,回答相應的實體答案。而多含義實體的各個意義,可被不同的獨立問題所切分開來,因而巧妙解決多含義實體問題。 演講過程中,我會以知名的Python套件(Transformers)與Pytorch為實作核心,輔以介紹,透過Transformers套件可快速套用許多預訓練模型,並實現在自身資料集裡。最後,搭配實際展示引導聽眾了解整個問題與解法的脈絡。

    說明

    影片

    江侑倫

    NLP Engineer at CTBC bank