百度大數據分享

導語：我們身處海量數據時代。2011年，全球產生的數據量達到1.8ZB（1ZB=10億TB，1TB=1000GB）。未來十年，全球大數據還將增加50倍。面對數據的暴增，如何有效的存儲、管理、訪問這些數據？互聯網企業將如何應對大數據處理所帶來的技術挑戰？

      近日，主要來自各大互聯網企業的300多位工程師匯聚百度技術沙龍，與中科院、百度、58同城的技術專家圍繞海量數據分析的技術趨勢與應對進行了深入的研討交流。由於吸引了衆多一線的大數據處理專家參與，本期沙龍被業界謂之“大數據處理技術羣英匯”。百度通過沙龍，向業界分享了自己領先的海量數據處理技術。

       正視海量數據所蘊藏的價值金礦

       在互聯網的世界，每個人的行爲不再是“人似秋鴻有來信，事如春夢了無痕”，任何行爲都有前兆，任何行爲也都將對後續產生影響。對於互聯網大數據的分析，某種程度上將讓人類擁有預知並影響未來的能力。而這也正是大數據的魅力所在。每個企業和機構都應正視海量數據所蘊藏的價值金礦。

       百度對於大數據的管理與價值發掘能力處於絕對領先的地位。作爲全球最大的中文搜索引擎，百度每天響應來自138個國家和地區的數十億次請求，要處理超過100PB(1PB=1024TB)的數據，從浩如煙海的信息中精確抓取約10億網頁，同時索引庫還擁有千億級在線索引能力，以幫助用戶完成搜索過程。過去10年，百度網頁搜索庫已從500萬猛增到了500億。

       遵循開放、分享的互聯網精神，百度希望把自身對於大數據處理的能力和技術積累向業界開放，分享自身領先的技術理念和實踐，幫助所有置身於海量數據之中的企業和技術人員，共同促動行業進步。

       事實上，大數據在生活中無處不在。街上的汽車、路上的行人、天上的衛星等幾乎所有的東西每分鐘都在生成大量的數據，並通過各類終端進入互聯網。從商業、經濟及其他領域到國家的決策行爲，海量數據分析都在日益發揮着積極而重要的作用。奧巴馬政府宣佈投資2億美元，啓動“大數據研究和發展計劃”。當前，海量數據分析與處理技術已成爲各界熱切關注的焦點。

       海量數據處理技術，成就百度毫秒級搜索響應

       中科院計算所副研究員查禮博士在沙龍上指出：百度毫秒級的搜索響應速度源於海量數據分析技術。大數據發展分爲三個階段，第一個就是大，通過分佈式系統架構Hadoop來編輯出大量的數據，這個階段現在已經完成。第二個就是快，在解決大量問題、調用大量數據的同時，儘可能縮短時間，是現階段需要解決的問題。“以時間換空間”是現在主流的解決方法。第三個就是準，在使用搜索引擎的時候，根據每個人的使用習慣和需求方式的不同，來獲得更準確的答案，是大數據未來的發展目標。

       據百度分佈式高級研發工程師楊棟介紹，從“快”到“準”也正是百度目前的課題。現階段百度將100毫秒定爲搜索響應速度標準，並通過去重算法和雲存儲等創新技術，在內存、高可用、讀寫等方面做出革新，不斷縮減這個數值，達到更快的響應速度。此外，百度還採用了hypertable（開源分佈式存儲系統）與hadoop系統結合的方式，更好地完成存儲，節約成本及降低能耗。

“準”作爲海量數據技術的未來發展趨勢，已在百度初現端倪。百度新首頁的“推薦引擎”技術就已經部分實現“不搜即得”的智能應用推薦，即基於用戶以往的使用習慣分析，直接將用戶需要的信息推送至用戶個人首頁。

      毫無疑問，海量數據時代已經到來，從“快”到“準”的大數據處理技術，將讓每一個網民受益，享受到更便捷貼心的網絡體驗。