隨著大型語言模型(LLM)的應用日益廣泛,「幻覺」產生錯誤資訊的問題成為關鍵挑戰,然而人工評估每個輸出既耗時又成本高昂。本演講聚焦於「LLM-as-judge」領域,介紹如何結合Python與Chain of Verification(CoVe)框架,建立自動化驗證機制。我將分享如何擴展原始CoVe框架,透過整合Python REPL執行環境與ReAct(推理+行動)範式,實現動態資料驗證。這種方法不僅能有效減少幻覺問題,更大幅降低人工審核需求。演講將包含實驗結果分析,比較不同模型的準確率,並展示Python執行軌跡如何幫助驗證過程。無論是數據分析師、AI開發者或對LLM應用感興趣的Python愛好者,都能從中獲取實用技術與解決方案。