DeepWeb搜索文章-《查找"看不見的網頁"的途徑與工具》

查找"看不見的網頁"的途徑與工具

邢志宇

刑老師的文章值得細看與學習!


  "看不見的網頁"(The Invisible Web)是指搜索引擎商出於自身考慮不願索引的某些網絡內容,或是因爲技術原因普通搜索引擎(popular search engines)無法索引的網絡內容。這些普通搜索引擎的"蜘蛛"不容易接近的"深層網絡"(deep Web)的數量,要比搜索引擎索引的網頁(visible Web)多出500多倍。如何搜索Invisible Web 已經引起國內外學者和網絡搜索愛好者的關注。就搜索技術而言,搜索網站和搜索引擎商正在尋求構建能夠揭示Invisible Web的目錄指南,或改進搜索技術,增加搜索功能等多種對策;就具體搜索而言,用戶應注意調整搜索策略,熟悉相關目錄和專用搜索引擎,掌握相應的搜索技巧。一般來說,搜索Invisible Web可以從目錄指南(directories)、具有檢索功能的網站(searchable sites)、免費數據庫(free Web databases),以及專用搜索引擎(specialized search engines)和優秀普通搜索引擎等四種途徑入手,選擇使用相應的檢索工具。 


一、目錄指南

1、Librarians' Index to the Internet( http://lii.org/),一個可以信賴的經過圖書館員篩選和維護的包括14,000多個網站的主題目錄,在查詢框輸入一個寬泛的主題詞加上"and databases"就可以進入相關的
"Invisible Web"資源,如輸入檢索詞"biology and databases"(生物和數據庫),就可找到普通搜索引擎無法索引的有關生物方面的數據庫資源。

2、FindLaw ( http://www.findlaw.com/),世界著名的法律網站,在法律條目下鏈接許多免費數據庫,是查找法律Invisible Web的常用工具。

3、InfoMine ( http://infomine.ucr.edu),圖書館員編制的包括120,000 多個學術網站的分類目錄。

4、About.com ( http://www.about.com/) ,內容廣泛,查詢主題數以萬計,包括衆多"Invisible Web"資源,並有精選新聞和評論,輸入"Invisible Web"可以找到很多隱藏網頁鏈接,如:"Invisible Web: The Cloaked Internet"("看不見的網頁":被掩蓋的網絡資源)、" Visible versus Invisible Web"(從可見網頁到"看不見的網頁")等等, 可作爲搜索"Invisible Web"的指南。

5、Academicinfo( http://www.academicinfo.net/),學術資源主題指南,提供一個適合大學生利用的學術網絡資源檢索入口。它以"Subject Gateway"區分知識領域,利用知識樹的方式細分主題,主題下彙集該門學科的包括數據庫等的各種相關網絡資源,而不僅僅是網站的鏈接。該目錄以圖書館和學術單位的電子資源爲主,主題的分類和內容指引清晰易尋,使用方便。 


二、搜索"Invisible Web"的網站

1、Direct Search ( http://www.freepint.com/gary/direct.htm),最具權威的用於檢索"看不見的網頁"的網站,擁有數量龐大的Invisible Web資源鏈接。

2、The Invisible Web Directory ( http://www.invisible-web.net/),《看不見的網頁》(The Invisible Web: Uncovering Information Sources Search Engines Can't See )作者Chris Sherman和 Gary Price創辦的專門用於指導檢索Invisible Web資源的網站,網站的宗旨是"尋找搜索引擎無法找到的隱藏的網絡資源"(Finding Hidden Internet Resources Search Engines Can't See)。

3、Profusion ( http://www.profusion.com),Intelliseek公司旗下的一個智能型並行元搜索引擎,其搜索對象分爲包括WEB(萬維網)、News(新聞)、Jobs(職業信息)、MP3、Downloads(下載文件)、Legal(法津)、Discussions(討論組)等21個資源大類。可搜索以網頁搜索爲主的其它搜索引擎無法搜索到的數據庫、百科全書等資源類型的信息。

4、CompletePlanet ( http://www.completeplanet.com/),BrightPlanet公司經營的網站,包括70,000多個可以檢索的數據庫及專用搜索引擎,用於從數據庫查找不能夠被普通搜索引擎索引的文件。

三、Invisible Web 數據庫

1、AnimalSearch ( http://animalsearch.net/),一個適合家庭使用的有關動物的網站數據庫。

2、Educator's Reference Desk ( http://www.eduref.org/),在過去的十年中,該網站始終鏈接着AskERIC網站上的2000多個教學計劃, 3000多種在線教育信息鏈接和200多件諮詢檔案。該網站提供"ERIC教育研究數據庫"--世界最大的教育資源數據庫和美國教育部的GEM(Gateway to Educational Materials)的檢索入口。

3、NatureServe Explorer( http://www.natureserve.org/explorer),網上百科全書,提供美國和加拿大
60,000多種植物、動物、生態系統的權威資料。

4、Nuclear Explosions Database ( http://www.ga.gov.au/oracle/nukexp_query.html),澳大利亞地球科學數據庫,提供1945年以來世界範圍內核爆炸的地點、時間、規模等數據,點擊"databases"下的"Online Tools"可以看到在線製圖工具和數據庫列表。

5、PubMed ( http://www.ncbi.nlm.nih.gov/entrez/query.fcgi),提供對MEDLINE(美國國家醫學圖書館的文獻數據庫)1400多萬全文和相關資源的檢索,還可以瀏覽美國國家醫學圖書館(NLM)所屬的國家生物技術信息中心(NCBI)的數字化生命科學期刊文獻館(PubMed Central (PMC))中160多種專業期刊全文和《書架》
(Bookshelf)數據庫中不斷增長的生物醫學工程圖書的全文,它還提供目前世界上最大的生物分子數據庫NCBI的Entrez數據庫檢索系統,以此爲入口可以檢索更多的生命科學方面的數據庫。

6、LookSmart's FindArticles ( http://www.findarticles.com/),LookSmart管理的一個免費全文數據庫,可提供900多種出版物的5500萬篇文章的全文免費檢索和打印。從LookSmart主頁(http://search.looksmart.com/)上列的"Articles"按鈕,也可進入該數據庫。

7、Directory of Open Access Journals ( http://www.doaj.org/),2003年5月由瑞典隆德大學圖書館推出的開放式目錄檢索系統,免費提供1300多種期刊的篇目檢索和300多種自然科學、人文科學及社會科學期刊的全文檢索。

四、搜索引擎

1、Incywincy( http://www.incywincy.com/),以Net Research Server (NRS)技術爲核心的Invisible Web搜索引擎,其目錄是由DMOZ(http://dmoz.org/)提供的 Open Directory Project,其"蜘蛛"程序並不是探尋所有的網站,而僅僅是抓取ODP中的Invisible Web網頁。

2、google scholar( http://scholar.google.com),Google學術搜索實際上是Google索引的一個子集,涉及醫藥、物理、經濟以及計算機科學等多個領域,可以搜到一些與輸入關鍵詞相關的學術性刊物文章,研究機構論文、書籍、摘要及技術報告等等,搜索結果中可以列出文章的不同版本以及被其他文章所引用的次數。它可以對pubmed(美國國立生物技術信息中心(NCBI)開發的用於檢索MEDLINE、PreMED-LINE數據庫的網上檢索系統)等獨立的專業數據庫進行檢索。

3、Singingfish ( http://www.singingfish.com),一個優秀的聲/視頻搜索引擎,它只索Windows Media、
Real、 QuickTime、mp3等多媒體文檔,其搜索結果可以免費使用。

4、Google News ( http://news.google.com/) 頗受好評的Google新聞搜索,擁有4500多個新聞源,每15分鐘自動更新,其"Top Stories"下拉菜單,可供瀏覽不同國家的"最新新聞"。注:Yahoo!News、Topix.net、
Daypop等也有類似功能。 

5、Scirus ( http://www.scirus.com/) ,一個覆蓋16700多萬網頁的著名的科學搜索引擎,它的高級搜索功能尤其令人稱道,可以從科學學科(如:Agricultural and Biological Sciences、Astronomy...)、信息源(如:NASA、US Patent Office...)、文件格式(如:PDF、HTML...)、信息類型(如:Abstracts、Articles、Books...)等途徑檢索1920年至今的期刊和網絡科學文獻,查找具體數據、報告、文章和相關研究網頁極爲方便。

在搜索多種非HTML文檔(non-HTML files)方面功能強大或獨具特色的普通搜索引擎,如Google (http://www.google.com/) 、Yahoo!  (http://www.yahoo.com/)、Gigablast (http://www.gigablast.com/)等,也是搜索Invisible Web不可忽視的工具

 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章