打造針對小型社群/個人的內容資料庫：基於微調預訓練語言模型的自動標記方案

James Chen

來回走跳於資料科學、社會運動等領域的學徒工。

摘要

ChatGPT爆紅後，大模型似乎成爲一切自然語言處理問題的解方，坊間各種呼叫OpenAI的API和使用ChatGPT的教學層出不窮。然而，ChatGPT不論有多優秀的表現，都不如專門為任務目的訓練的模型更懂你、更懂你的資料。另外，面對來勢洶洶的AI生成内容趨勢，網路資訊爆炸勢必更加凶猛，如何保存優質的内容建立資料系統也將變得越來越重要。本演講將介紹如何使用NLP技術（更具體地說，微調預訓練語言模型）建立一個全自動的智慧化内容資料庫。內容資料庫指的是為特定目的而建立的具有完整分類、層級系統的資料庫，現實中的例子包括新聞報紙資料庫、法規資料庫等都是這種資料庫的例子，它們為相關領域的工作者提供便利，是許多研究、寫作、倡議的基礎資源。藉助AI方法，我們將不再需要大量手工整理、編輯，更多缺乏資源的小型社群、獨立媒體、NGO也可以建立屬於自己的資料庫。演講重點放在與Python最相關的微調預訓練語言模型方法部分。我將提出一種簡單、高效的多任務訓練方法，用來解決個人或小型社群面對的計算資源不足問題。同時，我還會介紹一些人工標記訓練資料和ChatGPT自動標記訓練資料的方法和可能遇到的問題，因爲優質的資料是成功的一大半。

說明

地點

時間

第二天 • 13:45-14:15 (GMT+8)

語言

中文演講/英文投影片

層級

中階

分類

自然語言處理