搜索中客戶的訪問日誌到底能用來做什麼(4)?

原創

2020-06-26 10:28

質量評測算法（方法）

各種評測算法或方法都離不開用戶的目標點擊，比如用戶查詢一個word，點擊的都集中到了第一頁的最後一項，那至少說明你這個第一頁排序有問題，沒有把用戶想要的結果最直接的提供給用戶（大部分搜索完都只看前幾條，覺得不靠譜就會轉個查詢詞再搜或乾脆換個搜索引擎）

多說一句：質量評測算法不是主要的，問題是要根據總結的特徵修改各引擎數據合併成第一頁的展現策略，當然這些個算法或方法能夠直觀的反映出你這個搜索引擎靠不靠譜

或是你更新某個展現策略的時候，是否真的有積極的改善效果而不是越改越差勁

MRR算法

描述：MRR是平均排序倒數的簡稱，對一個搜索詞計算第一個相關文檔的位置，這個位置的倒數即爲這個搜索詞的分數，例如一個搜索詞，第三個位置的結果最相關，則RR=1/3 = 0.3333, 最終搜索詞集合 MRR就是集合RR的算術平均值。

優點：簡單，對導航類查詢詞較好

缺點只考慮了一個位置

MAP算法

描述：求每個相關內容檢索後的準確率的平均值，然後對查詢詞集合的打分再做算術平均。

例如，一個搜索詞，有4個相關網頁，位置分別爲1、2、4、7，那麼這個詞的得分爲：（1/1 + 2/2 + ¾ + 4/7）/4= 0.83

優點：考慮了每個相關內容的位置對總體得分的影響

缺點：只考慮了相關內容的影響

DCG算法

描述：每條結果的相關性是有等級的，比如好，非常好，不好，非常不好等；要考慮到結果所在的位置，位置越靠前重要程度越高；好結果位置越靠前則獎勵越高，壞結果越靠前則懲罰越高。公式爲： DCGp = rel 1+ ∑reli/logi （2<=i<=p）

優點：評分較爲精準，很符合人的評價思維

缺點：需要人工來確定每個位置的結果的分值，這個就不利於程序進行自動化處理

P@N算法

描述:對特定的查詢，考慮位置因素，檢測前N條結果的準確率，例：對單次搜索結果前5篇，如果有4篇爲相關文檔，則P@5 = 4/5 = 0.8

優點：簡單直觀

缺點：結果位置對分值無差異（實際上位置對分數應該有不同的貢獻值）

客戶端訪問日誌之相關搜索與廣告推薦

待續

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.