Modern recommender system in large content website

Abstract

在資訊量爆炸的現在,任何媒體甚至是電商都需要一個能夠過濾雜訊,將有效的資訊正確傳遞給各個不同用戶的推薦系統。標題中的 modern 指的是一個包含召回、排序兩階段推薦的現代化作法,而 large content 則是要談如何透過 pyspark 建立可規模化的推薦系統框架。最後要和大家分享,一個擁有數億篇文章與數千萬每日瀏覽量的部落格網站如何從無到有建立這一套作法。

Description

如何在大量的內容中精準找出用戶感興趣的個人化推薦內容,提昇用戶點閱,一直是我們面臨到的問題。當用戶與內容數量越來愈多,舊有的算法在效能上遇到瓶頸,而嶄新的算法又因複雜的計算而無法滿足效率的考量,此時,採用兩階段的方式可以幫我們在效能與效率上取得平衡。 我們將從為什麼要這樣設計開始,談到這一套推薦系統的架構、召回階段演算法的設計與比較、排序階段的模型與特徵工程。最後再談到如何搭建一個線上的A/B testing系統來評估我們的優化成果。

Speaker

Cyrus Chiu

喜歡影像創作,從獨立製片工作轉換跑道到電腦視覺,現在認為寫程式也是一種創作。曾任PIXNET演算法工程師,負責推薦系統的主要開發。現為Vpon資料科學家。