機器學習在搜尋排序上的應用

語言

中文演講/中文投影片

分類

資料分析

Python 難易度

進階

摘要

排序是搜尋引擎的核心問題,好的排序方法可以讓用戶快速找到想要的東西,為網站帶來更多效益。但是對於排序問題,我們聽過的相關演算法有非常多種,例如:BM25,PageRank,用戶行為與點擊率等等,這麼多種方法該選哪一種?或是有辦法進行整合?本演講將介紹利用機器學習方法,將這些排序因子整合起來,透過修改scikit-learn的增量學習分類器SGDClassifier,建立能應付較大資料量的排序模型。

說明

Google 這篇論文介紹利用 SGD 來訓練排序模型,scikit-learn工具也提供相關模型訓練方法。 因此對 SGDClassifier 進行改造,增加樣本隨機抽樣技術,就能做出論文描述的模型。 Large Scale Learning to Rank http://www.eecs.tufts.edu/~dsculley/papers/large-scale-rank.pdf scikit-learn http://scikit-learn.org/stable/ SGDClassifier http://scikit-learn.org/stable/modules/sgd.html

Jiawei Chen

MLDM Monday與 Kaohsiung Python社群 Co-organizer, 目前在學術單位擔任研究人員,熱衷於研究機器學習相關技術,喜歡分享相關技術,並應用在實務工作上。