搜索中客戶的訪問日誌到底能用來做什麼(4)?

質量評測算法(方法)


各種評測算法或方法都離不開用戶的目標點擊, 比如用戶查詢一個word,點擊的都集中到了第一頁的最後一項,那至少說明你這個第一頁排序有問題,沒有把用戶想要的結果最直接的提供給用戶(大部分搜索完都只看前幾條,覺得不靠譜就會轉個查詢詞再搜或乾脆換個搜索引擎)

多說一句:質量評測算法不是主要的,問題是要根據總結的特徵修改各引擎數據合併成第一頁的展現策略,當然這些個算法或方法能夠直觀的反映出你這個搜索引擎靠不靠譜

或是你更新某個展現策略的時候,是否真的有積極的改善效果而不是越改越差勁


         MRR算法
描述:MRR是平均排序倒數的簡稱,對一個搜索詞計算第一個相關文檔的位置,這個位置的倒數即爲這個搜索詞的分數,例如一個搜索詞,第三個位置的結果最相關,則RR=1/3 = 0.3333, 最終搜索詞集合 MRR就是集合RR的算術平均值。
優點:  簡單, 對導航類查詢詞較好
缺點  只考慮了一個位置
MAP算法
描述:求每個相關內容檢索後的準確率的平均值,然後對查詢詞集合的打分再做算術平均。
 例如,一個搜索詞,有4個相關網頁,位置分別爲1247,那麼這個詞的得分爲: (1/1 + 2/2 + ¾ + 4/7/4= 0.83
優點:考慮了每個相關內容的位置對總體得分的影響
缺點:只考慮了相關內容的影響
DCG算法
描述:每條結果的相關性是有等級的,比如好,非常好,不好,非常不好等;要考慮到結果所在的位置,位置越靠前重要程度越高;好結果位置越靠前則獎勵越高,壞結果越靠前則懲罰越高。公式爲: DCGp = rel 1+  ∑reli/logi 2<=i<=p
優點: 評分較爲精準, 很符合人的評價思維
缺點:需要人工來確定每個位置的結果的分值,這個就不利於程序進行自動化處理
P@N算法
描述:對特定的查詢,考慮位置因素,檢測前N條結果的準確率,例:對單次搜索結果前5篇,如果有4篇爲相關文檔,則P@5 = 4/5 = 0.8
優點:簡單直觀
缺點:  結果位置對分值無差異(實際上位置對分數應該有不同的貢獻值)



客戶端訪問日誌之相關搜索與廣告推薦

待續


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章