打造針對小型社群/個人的內容資料庫:基於微調預訓練語言模型的自動標記方案

James Chen

James Chen

來回走跳於資料科學、社會運動等領域的學徒工。

    摘要

    ChatGPT爆紅後,大模型似乎成爲一切自然語言處理問題的解方,坊間各種呼叫OpenAI的API和使用ChatGPT的教學層出不窮。然而,ChatGPT不論有多優秀的表現,都不如專門為任務目的訓練的模型更懂你、更懂你的資料。另外,面對來勢洶洶的AI生成内容趨勢,網路資訊爆炸勢必更加凶猛,如何保存優質的内容建立資料系統也將變得越來越重要。 本演講將介紹如何使用NLP技術(更具體地說,微調預訓練語言模型)建立一個全自動的智慧化内容資料庫。內容資料庫指的是為特定目的而建立的具有完整分類、層級系統的資料庫,現實中的例子包括新聞報紙資料庫、法規資料庫等都是這種資料庫的例子,它們為相關領域的工作者提供便利,是許多研究、寫作、倡議的基礎資源。藉助AI方法,我們將不再需要大量手工整理、編輯,更多缺乏資源的小型社群、獨立媒體、NGO也可以建立屬於自己的資料庫。演講重點放在與Python最相關的微調預訓練語言模型方法部分。我將提出一種簡單、高效的多任務訓練方法,用來解決個人或小型社群面對的計算資源不足問題。同時,我還會介紹一些人工標記訓練資料和ChatGPT自動標記訓練資料的方法和可能遇到的問題,因爲優質的資料是成功的一大半。

    說明

    地點

    R1

    時間

    第二天 • 13:45-14:15 (GMT+8)

    語言

    中文演講/英文投影片

    層級

    中階

    分類

    自然語言處理