Language
Chinese talk w. Chinese slides
Category
Data Analysis
Python Level
Experienced
Abstract
排序是搜尋引擎的核心問題,好的排序方法可以讓用戶快速找到想要的東西,為網站帶來更多效益。但是對於排序問題,我們聽過的相關演算法有非常多種,例如:BM25,PageRank,用戶行為與點擊率等等,這麼多種方法該選哪一種?或是有辦法進行整合?本演講將介紹利用機器學習方法,將這些排序因子整合起來,透過修改scikit-learn的增量學習分類器SGDClassifier,建立能應付較大資料量的排序模型。
Description
Google 這篇論文介紹利用 SGD 來訓練排序模型,scikit-learn工具也提供相關模型訓練方法。
因此對 SGDClassifier 進行改造,增加樣本隨機抽樣技術,就能做出論文描述的模型。
Large Scale Learning to Rank
http://www.eecs.tufts.edu/~dsculley/papers/large-scale-rank.pdf
scikit-learn
http://scikit-learn.org/stable/
SGDClassifier
http://scikit-learn.org/stable/modules/sgd.html
Jiawei Chen
MLDM Monday與 Kaohsiung Python社群 Co-organizer, 目前在學術單位擔任研究人員,熱衷於研究機器學習相關技術,喜歡分享相關技術,並應用在實務工作上。