搜索與排序(二)

一、基於內容的排名

該評價方法有三種評價量度:1)單詞頻度:以查詢條件在被查詢網頁中出現的頻度爲標 準,頻度越高對該網頁的評價就越高,其排名就越靠前。2)文檔位置:以查詢條件在被查詢網 頁中出現的位置爲標準,查詢條件在網頁中出現的位置越靠前該網頁評價就越高, 其排名就越靠 前。3)單詞距離:當查詢條件是多個單詞時,計算查詢條件的單詞在網頁中的距離,距離越小 其評價就越高, 其排名就越靠前。

以上三種量度方法中有的是一些數據越大評價度就越高,而另一些數據越小評價度就越高, 這樣就產生了不一致,所以需要“歸一化函數”對其進行統一。

二、基於外部回指鏈接的排名

這一方法是利用一個網頁所具有的回指鏈接的多少來給出該網頁的評價,回指鏈接越多評 價就越高。其優點爲:當對存在可疑內容的網頁或垃圾內容製造者生成的網頁建立索引時,這一 方法可以有效地阻止垃圾網頁,因爲與真實可信的網頁相比,這樣的網頁回指鏈接很少。

PageRank算法:該算法爲每個網頁都賦予一個指示網頁重要程度的評價值,網頁的重 要程度是由指向該網頁的重要程度以及這些網頁中所包含的鏈接數求得的。

每個網頁的PageRank值:0.85*(指向該網頁的網頁的重要度的值/指向該網頁的網 頁的鏈接數)其中0.85是阻尼係數。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章