搜索引擎技術發展史

從搜索引擎所採取的技術來說,可以將搜索引擎技術的發展劃分爲4 個時代:

史前時代:分類目錄的一代

這個代也可以稱爲"導航時代"Yahoo和國內hao123是這個時代的代表。通過人工收集整理,把屬於各個類別的高質量網站或者網頁分門 別類羅列,用戶可以根據分級目錄來查找高質量網站。這種方式是純人工的方式並未採取什麼高深的技術手段。採取分類目錄的方式,一般被收錄的網站質量較高,但是這種方式可擴展性不強,絕大部分網站不能被收錄。

第一代:文本檢索的一代

文本檢索的一代採用經典的信息檢索模型,比如布爾模型、向量空間模型或者概率模型,來計算用戶查詢關鍵詞和網頁文本內容的相關程度。網頁之間有豐富的鏈接關係,而這一代搜索引擎並未使用這些信息早期的很多搜索引擎比如AltaVista、Excite等大都採取這種模式。

相比分類目錄,這種方式可以收錄大部分網頁,並能夠按照網頁內容和用戶查詢的匹配程度進行排序。但是總體而言,搜索結果質量不是很好。

第二代:鏈接分析的一代

這一代的搜索引擎充分利用了網頁的鏈接關係,並深入挖掘和 利用了網頁鏈接所代表的含義。通常而言,網頁鏈接代表了一種推薦關係,所以通過鏈接分析可以在海量內容中找出重要的網頁。這種重要性本質上是對網頁流行程度的一種衡量,因爲被推薦次數多的網頁其實代表了其具有流行性。搜索引擎通過結合網頁流行性和內容相似性來 改善搜索質量。

Google率先提出並使用pagerank鏈接分析技術,並大或成功,這同時引起了學術界和其他商業搜索引擎都採取了鏈接分析技術。

採用鏈接 分析能夠有效個改善搜索結果質量,但是這種搜索引擎並未考慮用戶的個性化要求,所以只要輸入的查詢請求相同,所有用戶都會獲得相同的搜索結果。另外,很多網站擁有者獲得更高的搜索排名,針對鏈接分析算法提出了不少鏈接作弊方案,這樣導致搜素結果質量變差。

第三代:用戶中心的一代

目前的搜索引擎大都可以歸入第三代,即以理解用戶需求爲核心。不同用戶即使輸入同一個查詢關鍵詞,但其目的也有可能不一樣。比如同樣輸入"蘋果"作爲查詢詞,一個追捧iphone的時尚青年和一個果農的目的會有相當大的差距。即使是同一個用戶,輸入相同的查詢詞,也會因爲所在的時間和場合不同,需求有所變化。而目前搜索引擎大都致力於解決如下問題:如何能夠理解用戶發出的某個很短小的查詢詞背後包含的真正需求所以這一代搜索引擎稱之爲以用戶爲中心的一代。

爲了能夠取用戶的真實需求,目前搜索引擎大都做了很多技術方面的嘗試。比如利用用戶發送查詢詞時的時間和地理位置信息,利用用戶過去發出的查詢詞及相應的點擊記錄等歷史信息等技術手段,來試圖理解用戶此時此地的真正需求。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章