James Chen
來回走跳於資料科學、社會運動等領域的學徒工。
摘要
ChatGPT爆紅後,大模型似乎成爲一切自然語言處理問題的解方,坊間各種呼叫OpenAI的API和使用ChatGPT的教學層出不窮。然而,ChatGPT不論有多優秀的表現,都不如專門為任務目的訓練的模型更懂你、更懂你的資料。另外,面對來勢洶洶的AI生成内容趨勢,網路資訊爆炸勢必更加凶猛,如何保存優質的内容建立資料系統也將變得越來越重要。 本演講將介紹如何使用NLP技術(更具體地說,微調預訓練語言模型)建立一個全自動的智慧化内容資料庫。內容資料庫指的是為特定目的而建立的具有完整分類、層級系統的資料庫,現實中的例子包括新聞報紙資料庫、法規資料庫等都是這種資料庫的例子,它們為相關領域的工作者提供便利,是許多研究、寫作、倡議的基礎資源。藉助AI方法,我們將不再需要大量手工整理、編輯,更多缺乏資源的小型社群、獨立媒體、NGO也可以建立屬於自己的資料庫。演講重點放在與Python最相關的微調預訓練語言模型方法部分。我將提出一種簡單、高效的多任務訓練方法,用來解決個人或小型社群面對的計算資源不足問題。同時,我還會介紹一些人工標記訓練資料和ChatGPT自動標記訓練資料的方法和可能遇到的問題,因爲優質的資料是成功的一大半。
說明
地點
R1
時間
第二天 • 13:45-14:15 (GMT+8)
語言
中文演講/英文投影片
層級
中階
分類
自然語言處理