淺析搜索引擎的原理及發展前景

淺析搜索引擎的原理及發展前景 論文

作者:嶽清  時間:2007-11-25 12:30:00  來源:論文天下論文網

[摘 要]文章簡述搜索引擎定義和服務方式,及搜索引擎的發展、工作原理和性能指標,分析了搜索引擎面臨的挑戰,並對特色搜索引擎進行了簡要的闡述。 [關鍵詞]搜索引擎;信息檢索 信息技術的不斷髮展,特別是互聯網應用的迅速普及,深入到了人們生活的各個方面,改變了人們生活方式和思維方式,方便了全球信息資源共享。全球目前的網頁超過100億,每天新增加數百萬網頁,電子信息爆炸似的豐富起來。要在如此浩瀚的海洋裏尋找信息,就像“大海撈針”一樣。能有一種工具使我們可以在不到1秒鐘的時間就迅速找到我們想要的內容嗎?答案是“有”,這就是搜索引擎。今天,搜索引擎已成爲人們在網絡信息海洋中自如衝浪必不可少的利器。 搜索引擎(Search Engines)就是指在WWW(World Wide Web)環境中能夠響應用戶提交的搜索請求,返回相應的查詢結果信息的技術和系統,是互聯網上的可以查詢網站或網頁信息的工具。它包括信息蒐集、信息整理和用戶查詢三部分。搜索引擎的服務方式分爲兩種:目錄服務和關鍵字檢索服務。目錄服務是由分類專家將網絡信息按照主題分成若干個大類,用戶可以根據分類清晰地找到自己所需要的內容。關鍵字檢索服務可以查找包含一個或多個特定關鍵字或詞組的WWW站點。搜索引擎是互聯網的第二大核心技術,涉及到信息檢索、人工智能、計算機網絡、分佈式處理、數據庫、數據挖掘、數字圖書館、自然語言處理等多領域的理論和技術,所以具有綜合性和挑戰性。 1搜索引擎的發展 1990年以前,沒有任何人能實現搜索互聯網的功能。互聯網發展早期,信息量較少,互聯網用戶多爲專業人士,那時查找信息要相對容易。伴隨互聯網爆炸性的發展,普通網絡用戶想找到所需的資料簡直如同大海撈針,這時爲滿足大衆信息檢索需求的搜索引擎便應運而生了。所有搜索引擎的祖先,都可以追溯到1990年由蒙特利爾McGill大學學生Alan Emtage、Peter Deutsch、Bill Wheelan發明的Archie(Archie FAQ)。雖然當時World Wide Web還未出現,但因爲當時網絡的主要用途是傳輸文件,網絡中的文件傳輸還是相當頻繁。由於大量的文件散佈在各個分散的FTP主機中,查詢起來非常不便,因此Alan Emtage想到了開發一個可以以文件名查找文件的系統,於是便有了Archie。 1993年,美國內華達System Computing Services大學開發了一個與Archie非常相似的搜索工具,這個搜索工具既能夠檢索文件也能夠檢索網頁。 1994年4月,斯坦福(Stanford)大學的兩名博士生,David Filo和美籍華人楊致遠(Gerry Yang)共同創辦了超級目錄索引Yahoo,併成功地使搜索引擎的概念深入人心。從此搜索引擎進入了高速發展時期。 1998 年,斯坦福大學的兩位博士生 Larry Page 和 Sergey Brin 開發出了現在世界上最大的搜索引擎——Google。通過對 20 多億網頁進行整理,Google 可爲世界各地的用戶提供適需的搜索結果,而且搜索時間通常不到半秒。現在,Google 每天需要爲世界各國用戶提供 1.5 億次查詢服務。 1997年10月29日,北大天網正式在CERNET上向廣大Internet用戶提供Web信息導航服務,它是由北大計算機系網絡與分佈式系統研究室開發的國家“九五”重點科技攻關項目“中文編碼和分佈式中英文信息發現”的研究成果,受到學術界廣泛好評。 2000年1月,兩位北大校友,前Infoseek資深工程師李彥宏與加州大學伯克利分校博士後徐勇在北京中關村創立了百度(Baidu)公司。歷經5年的高速發展後,在近兩年時間裏,百度高居全球網站流量前八名的位置,已經成爲全球十大網站之一。百度每天接受着超過一億人次來自各個方面的內容檢索請求,中國9400萬網民幾乎每天使用1次百度。“有問題百度一下”已經成爲中國網絡流行語之一。 2002年,中國搜索(原慧聰搜索)正式進入中文搜索引擎市場。在一年多的時間裏,就發展爲全球著名的中文搜索引擎服務商,爲新浪、搜狐、網易、TOM等知名門戶網站提供搜索引擎技術。慧聰搜索引擎的優勢是從人工審覈網站信息源和設置禁查詞兩個方面入手,有效地過濾了不良信息,降低了垃圾信息的含量。在互聯網實時新聞搜索方面,慧聰也實現了網絡新聞的實時檢索。 2 搜索引擎的工作原理 簡單的說,搜索引擎是通過從互聯網上提取的各個網站的信息來建立數據庫,檢索與用戶查詢條件匹配的相關記錄,然後按一定的排列順序將結果返回給用戶。 根據搜索引擎提取數據的方法,可將搜索引擎系統可以分爲三大類: 2.1目錄式搜索引擎:是一種網站級搜索引擎。目錄式搜索引擎由分類專家將網絡信息按照主題分成若干個大類,每個大類再分爲若干個小類,依次細分,一般的搜索引擎分類體系有五六層,有的甚至十幾層。先由程序自動蒐集信息,然後由編輯員查看信息,人工形成信息摘要,提供目錄瀏覽服務和直接檢索服務。由於目錄式搜索引擎的信息分類和信息蒐集有人的參與,因此其搜索的準確度是相當高的,缺點是需要人工介入、維護量大、信息量少、信息更新不夠及時。Yahoo就是這類搜索引擎的代表。 2.2機器人搜索引擎:Robot(機器人)一詞大家並不陌生,Computer Robot是指某個能以人類無法達到的速度不斷重複執行某項任務的自動程序。由於專門用於檢索信息的Robot程序象蜘蛛(spider)一樣在網絡間爬來爬去,因此,搜索引擎的Robot程序被稱爲spider程序。搜索引擎主動派出稱爲蜘蛛(Spider)的機器人程序定期搜索(比如Google一般是28天),對一定IP地址範圍內的互聯網站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的數據庫。該類搜索引擎的優點是信息量大、更新及時、毋需人工干預,缺點是返回信息過多,有很多無關信息,用戶必須從結果中進行篩選。Google、北大天網、百度(Baidu)就是這類搜索引擎的代表。 2.3元搜索引擎:這類搜索引擎沒有自己的數據,而是將用戶的查詢請求同時向多個預先選定的獨立搜索引擎遞交,將返回的結果進行重複排除、重新排序等處理後,作爲自己的結果返回給用戶。優點是返回結果的信息量更大、更全,缺點是用戶需要做更多的篩選。第一個元搜索引擎,是美國華盛頓大學碩士生Eric Selberg 和 Oren Etzioni 開發的 Metacrawler。元搜索引擎的搜索效果始終不理想,所以沒有哪個元搜索引擎有過強勢地位。ByteSearch(http://www.bytesearch.com)、Mamma(http://www.mamma.com)、Profusion(http://www.profusion.com)就是這類搜索引擎的代表。 3 搜索引擎的性能指標 搜索引擎的目標就是在非常短的時間內搜索的信息全面並且準確。傳統信息檢索系統的性能參數——召回率和精度同樣也可以衡量一個搜索引擎的性能。 召回率是檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率,衡量的是檢索系統(搜索引擎)的查全率;精度是檢索出的相關文檔數與檢索出的文檔總數的比率,衡量的是檢索系統(搜索引擎)的查準率。對於一個檢索系統來講,召回率和精度不可能兩全其美:召回率高時,精度低;精度高時,召回率低。因爲沒有一個搜索引擎系統能夠蒐集到所有的WEB網頁,所以召回率很難計算。對於網民來說,互聯網上的信息不是不夠,而是“過剩”,如何精確查找到信息是大家所關心的問題。因此,目前的搜索引擎系統都非常關心精度。 4 搜索引擎面臨的挑戰 目前搜索引擎是網絡上被使用頻率最高的服務項目之一。隨着Internet的強勢發展,網上龐大的數字化信息和人們獲取所需信息能力之間的矛盾日益突出。國際數據公司(IDC)曾公佈的一份報告表明,被大肆宣傳爲“使用簡便易用,搜索結果豐富”的搜索引擎技術正在被信息更集中的局域網取代,因爲大多數搜索系統的表現與用戶的期望值相差太大,諸如數據量高速增長的視頻、音頻等多媒體信息的檢索,現在仍然是無法突破的難題。搜索引擎越來越不能滿足挑剔的網民們的各種信息需求,這表現在以下幾個方面: 收集的網頁數量和其數據庫的更新速度存在着不可調和的矛盾。用戶經常無法打開查詢的結果。網絡信息時刻變動,實時搜索幾乎不可能。就是剛剛瀏覽過的網頁,也隨時都有更新、過期、刪除的可能。網絡信息收集與整理是搜索引擎工作的重要一部分。搜索引擎需要定期不斷地訪問網絡資源。目前網絡帶寬不足,網絡速度不夠理想,遍歷如此龐雜的網絡時間花費是非常龐大的,這就是不能實時搜索的原因。 對多媒體內容的處理尚不成熟。迄今爲止,搜索對象主要是文本。基於語義的多媒體搜索技術還不成熟,比如搜索圖片時還只能通過周圍相關的文字進行判斷,而無法根據圖片本身的信息提供檢索。多媒體技術的發展,對搜索引擎提出了更多的要求。人們期望引擎不僅能挑出自己需要的文章,還能挑出自己所關心的圖片、電影音樂等。 搜索引擎的“智能” 有待提高。 一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自動排序軟件Spiders蜘蛛程序,只能接受這種格式的網頁。這意味着,在企業內部的局域網上,任何沒有使用HTML格式的信息將無法被外部的搜索引擎查到。這就是爲什麼像PPT、Word、PDF、電子郵件等文件,以及ERP、CRM等應用軟件的數據庫的信息會長期的“沉沒”在信息的海底中。智能搜索引擎具有跨平臺工作和處理多種混合文檔結構的能力。譬如既能處理HTML(Hyper Text Markup Language,超文本標誌語言),又能處理SGML(Standard for General Markup Language,通用標誌語言標準)和XML(Extended Marked Language,擴展標誌語言)文檔以及其他類型的文檔,譬如Word、WPS等。智能搜索引擎應該可以支持多語言搜索。 搜索引擎應更好地支持動態網頁,許多蜘蛛軟件不敢去碰動態網頁,怕被變化無窮的動態系統黑洞吸進去出不來。然而,網站使用動態網頁生成工具乃是大事所趨,解決動態網頁查找的問題已經迫在眉睫。 如何解決這些難題已成爲第三代搜索引擎探索的方向。一個好的搜索引擎不再僅憑藉數據庫大小、更新頻率、檢索速度、對多語言的支持這幾個基本特性來衡量,隨着數據庫容量的不斷膨脹,如何從龐大的資料庫中精確地找到正確的資料,被公認爲是下一代搜索技術的競爭要點。 5 特色搜索引擎 在網絡信息多樣化和網絡用戶多樣化的呼喚下,人們希望在網絡上找到更豐富更實用的資源,不再漫無目的地查找,特色搜索引擎便應運而生了。 尋人搜索引擎。如果您想在網上尋找一位老朋友,那麼可以考慮使用Yahoo提供的尋人搜索引擎(http://people.yahoo.com)。由於Yahoo的用戶羣極爲龐大,大多數網民都擁有或曾經擁有Yahoo的賬戶,另外其國際化特徵明顯,用戶羣包含了全世界各國的網民。因此,它應該是大範圍尋人的較好選擇。尤其當您尋找的人正好在某些非英語國家,找不到專門的搜索引擎,Yahoo的優勢就更爲明顯。 圖像搜索引擎。圖像搜索引擎雖然還沒有成熟的產品,但是這項研究工作卻緊鑼密鼓的進行着。據稱,美國Purdue大學的研究人員已經開發出了一種新的搜索引擎,這種搜索引擎不再使用關鍵詞文本進行搜索,而是使用圖像或者草圖進行搜索。不就的將來,用戶自己畫一幅草圖,搜索引擎就可以對數據庫進行搜索,並找到所有與草圖類似的圖像。不過,這要求圖像搜索引擎能夠快速處理超大容量數據庫。這種技術不僅爲網民提供了方便,在生物、化學、醫學等領域都可能發揮極大的作用。 多媒體搜索引擎。FAST(http://multimedia.alltheweb.com)是國外著名的多媒體搜索引擎,很多同類搜索引擎都會引用此引擎的內容。在FAST搜索多媒體文件,您可以同時搜索圖像、音頻、視頻等多種格式的多媒體文件,圖像支持JPEG、GIF、BMP三種格式,音頻支持MP3、Wave、AIFF、RealAudio、MIDI五種格式,視頻支持AVI、DivX、QuickTime、MPEG四種。FAST爲每一個搜索結果提供預覽和說明,同時還有可供下載的直接鏈接,以及該文件所在網站的地址。 房產地圖搜索引擎。房產地圖搜索引擎是結合地理信息系統(GIS)、數據庫系統(DBMS)和動態Web軟件技術開發研製,可以通過智能化地理信息分析查找特定範圍內的特定目標。例如用戶可以選擇購房願望:價格、面積、戶型、房屋佈局、地理位置、周邊商業、交通、自然環境、小區狀況等,在互聯網上進行查詢。引擎立即會將所有滿足條件的房源顯示出來,並可以任意放大、縮小、移動房源地圖。 美國華盛頓大學科學家正在研究一種新型搜索引擎——一搜得(Know It All ),它能像拖網一樣“撈到”所需資料網頁,然後以目錄表格形式將其進行整理。目前的搜索引擎使用起來其實並不“方便”。如果上網用搜索引擎查找和蒐集想要的內容,將是一件十分單調乏味的工作,因爲你必須訪問大量網頁,檢索大量資料數據。但新一代搜索引擎技術將有可能僅“按一次”鼠標,就能找出你想查找的內容。它的研發者埃齊奧尼說:“這種方法很奇特,它可將一大堆網頁中的有關信息以目錄表格的形式放在一個單一網頁上。”他們的最終目標是讓“Know It All ”能回答諸如“列表指出1900年以前出生的全英科學家”這樣的問題。 搜索引擎的存在使得每個人與任何問題的答案之間的距離只有點擊一下鼠標那麼遠。搜索引擎改變了我們上網的習慣,改變了我們工作方式甚至是生活方式。搜索引擎正在不斷創造奇蹟,而我們正在享受着奇蹟。 【參考文獻】 [1] 張興華.搜索引擎技術及研究[J].現代情報,2004,(4). [2] 唐銘傑.論搜索引擎的發展概況及發展趨勢[J].情報雜誌,2001,(5). [3] 陽小華.分佈式WWW信息收集技術[J].計算機工程與應用,2000,(5).[

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章