Deep Web(深層網絡or深度網絡)

深層網絡:揭示網絡中隱藏的價值
  World Wide Web(簡稱WWW,或Web網)自20世紀90年代發明以來就一直呈現蓬勃發展之勢,到今天爲止其蘊含着海量的豐富資源,包羅萬象,是人類一筆寶貴的知識財產。Web網按其分佈狀況可以分爲“表層網”(Surface Web)和“深層網”(Deep Web,也有稱Invisible Web,HiddenWeb)。
  Surface Web指存儲在Web空間、由超鏈接連接起來的靜態網頁、文件等資源,一般來說通過超鏈接就可以訪問這些資源。這裏所說的Surface Web是指傳統網頁搜索引擎可以索引的Web,以超鏈接可以到達的靜態網頁爲主構成的Web。
  Deep Web指那些存儲在網絡數據庫裏、不能通過超鏈接訪問而需要通過動態網頁技術訪問的資源集合。網絡數據庫包括搜索引擎數據庫、在線專業數據庫及站內搜索數據庫,統稱爲可搜索數據庫(Searchable Database)。
  因爲擔心爬行器會陷入巨量動態網頁庫而浪費網絡帶寬資源和存儲資源,以及目前的技術還無法發現潛藏在網絡數據庫中的信息,所以傳統搜索引擎,比如Google、百度等網頁搜索引擎,一般只索引Surface Web中由超鏈接可以到達的靜態網頁、文件等資源,卻不索引或很少索引Deep Web中的資源。
  我們熟知的是Surface Web,那麼Deep Web情況如何呢?容量多大?包含那些內容?內容質量如何?
  據BrightPlanet公司技術白皮書(The Deep Web-Surfacing the Hidden Value),Deep Web資源容量約爲Surface Web的500倍,而且包含着更多有價值的資源。以下簡述他們的研究結果:
(1)Deep Web裏包含的可訪問公共信息容量是我們熟知的Surface Web的400-500倍。
(2)Deep Web包含7500TB的信息,而Surface Web包含的信息容量只有19TB。
(3)Deep Web包含5500億獨立文檔,想對應的Surface Web只包含10億個。
(4)現有的Deep Web站點估計超過100,000個。
(5)60個最大Deep Web站點就已包含750TB信息,超過Surface Web所包含信息的40倍。
(6)平均看,Deep Web站點的月訪問量比Surface Web站點搞出50%,並且與Surface Web站點相比有更多的鏈接。可是那些典型的大型Deep Web站點在互聯網搜索領域卻不知名。
(7)Deep Web是互聯網新信息增長的最大來源。
(8)Deep Web站點在信息內容範圍上比一般Surface Web站點更專更深。
(9)Deep Web包含的有效高質內容總量至少是Surface Web的1000到2000倍。
(10)超過一半的Deep Web內容都保存在專業領域的數據庫中。
(11) 95%的Deep Web信息都是面向公共訪問的,而不是需要付費或者訂閱的。
  該白皮書還指出,當時最大的搜索引擎只索引了Surface Web中的16%信息量,而如果算上那些無法被傳統搜索引擎索引的Deep Web中的信息,那麼一般搜索引擎只能搜索0.03%的Web信息。可見,研究和挖掘Deep Web對於提高搜索覆蓋率和準確率有着非常重要的意義。
  欲瞭解這方面的信息,請參閱該書:The Deep Web-Surfacing the Hidden Value。 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章