nutch怎樣過濾spam信息。

主  題:   nutch怎樣過濾spam信息。
作  者:   kauu (kauu)
等  級:  
信 譽 值:   100
所屬論壇:   專題開發/技術/項目 搜索引擎技術
問題點數:   20
回覆次數:   4
發表時間:   2006-12-14 21:15:22
     
 
     

比如用自帶的parseHtml可以提取出html的信息,可是裏面的垃圾太多了,怎樣去提取出想要的信息呢?

比如新浪一篇新聞,裏面除了新聞正文外,還有一起和這個新聞沒有聯繫信息,側面的信息,頂上鍊接,底下的鏈接等,在nutch的一個網頁的pareData中把這個鏈接也包含進去了,對網頁查詢等有不好的影響,

請問一個用什麼方法可以解決一下,或一些
 
  回覆人:kauu(kauu) ( 一級(初級)) 信譽:100 2006-12-18 21:02:20 得分:0
 
 
?

這裏沒有人研究nutch 嗎?
Top
 
  回覆人:xiao7cn(燒雞) ( 一級(初級)) 信譽:95 2006-12-21 17:33:15 得分:0
 
 
?

用基於模板的信息提取技術,因爲新浪網的頁面結構是一樣的,讓nutch只在特定的位置提取信息...


Top
 
  回覆人:xxlcg(☆突突☆) ( 一級(初級)) 信譽:100 2007-01-10 11:51:09 得分:0
 
 
?
修改parseHtml啊
識別到是你要的網頁,才提取你要的信息,否則就丟棄
或者你寫個filter,parser會把document的root傳過來的,在這個點上提取也可以,但nutch會幫你把垃圾採集起來,呵呵
Top
 
  回覆人:kauu(kauu) ( 一級(初級)) 信譽:100 2007-01-15 12:45:07 得分:0
 
 
?
謝謝
 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章