簡郁庭
嗨,我是郁庭 目前在中國信託擔任工程師。 對自然語言非常有興趣,喜歡研究相關技術並和大家分享!!
摘要
本演講聚焦於打造一個擁有勞動法律知識的問答系統,該系統採用檢索增強生成(RAG)架構,此方式是基於領域知識庫檢索結果,並透過大型語言模型產出答案,從而提升問答的正確性與專業度。選用合適的檢索方法和語言模型對於系統性能至關重要,因為檢索結果為答題之參考文本,而語言模型理解與生成能力更是影響輸出品質。為此,我們實驗多種詞嵌入方法(Embedding)以及LLM模型,並比較不同組合的效能,最終我們採用了OpenAI的詞嵌入模型進行文件前處理,在經過相似度檢索獲取相關訊息後,使用GPT-4生成答案。法律條文閱讀理解難度較高,因其用字精練且刻意維持模糊性,使得系統開發更具挑戰,例如:提問涉及多條法規、巢狀條文引用,因此我們在文本前處理、資訊檢索、生成的手法上進行了研究與優化,我們的知識庫是基於全國法規資料庫數據所構建,在這個演講,將探討系統關鍵參數選擇的trade off,包括chunk大小、文本切割策略;分享提升檢索正確率的技巧,例如結合標籤系統以定位特定範圍的知識搜尋、法律文本生成的Prompt Engineering、法條提示功能,並會比較開源與閉源模型的生成效能差異。最後將利用由Streamlit web建立的介面進行成果展示,並與既有開源RAG系統進行綜合分析。
說明
地點
R0
時間
第二天 • 03:30-04:00 (UTC)
語言
中文演講/中文投影片
層級
中階
分類
自然語言處理