從數據庫到全面的數據平臺

去年我在香港出席了微軟技術大會TechED 2007。我和Ron Jacobs爲閉幕式做了主題演講,我們着重介紹了在微軟應用平臺開發中涌現的新一波技術創新浪潮。當然,我談到了數據平臺這一部分,我很欣喜地爲來賓們簡要介紹了即將隨SQL Server 2008上市的很多創新(SQL Server 2008按計劃將在今年發佈)。在後續的文章中,我們將進一步探討SQL Server 2008,但如果你有興趣瞭解更多或想現在就體驗一下的話,可以點擊該鏈接開始。

除了在技術大會上發言外,我們還會見了香港當地媒體,並向他們簡要介紹了SQL Server產品的未來發展方向。我們也會見了該地區的一些貴賓客戶——瞭解它們在微軟平臺上進行的最新項目,以及他們需要哪些類型的幫助。我們總是能從類似會談中學到很多。

對我來說,這趟旅行最有意義的方面卻可能是我在香港大學(HKU)和香港科技大學(HKUST)舉行的兩次題爲“從數據庫到全面的數據平臺”的演講。兩所學校的師生們正在一個我們現在寬泛地稱作“數據平臺”的領域從事研究工作,我們進行了交流——並從產業的角度來看待一些變革,這些變革我們認爲是傳統“數據庫”領域的一個歷史性轉變。

現代數據庫作爲一個研究領域已經存在40年了。從早期的層次和網狀模型,到Codd所開創的關係模型,再到不同領域的許多創新,包括事務處理、隔離級別、訪問方式、聲明式查詢語言與查詢處理、遊標、API,等等,數據庫技術爲構建可靠的企業級關鍵任務應用提供了基礎功能,這些應用在很大程度上帶動了今日的“信息經濟”。由此,當今日一個普通的大學生想到“數據庫”時,他們的印象可能是一個成熟的、甚至有點陳舊的研究領域,其中所有令人興奮的難題很多年前就已經解決了,剩下的工作無非是一些漸進式的改良——爲即將結束的領域畫上最後一個句號。

這樣的看法大錯特錯了。

在過去幾年中,幾種發展趨勢的強勁融合——技術趨勢、用戶和商業趨勢、應用趨勢——使得數據庫領域出現了從未有過的重新界定和擴展,數據庫在它的悠長歷史上從未有如此多令人興奮的問題等待解決。

讓我們簡要地回顧一下這些趨勢:

技術趨勢:大家都熟悉摩爾定律——處理能力每18個月翻一番,早期體現爲不斷增長的主頻,現在體現爲多核。事實上,該趨勢在硬盤存儲容量(以及價格)中表現更爲驚人。舉個例子,每G硬盤的價格已從1980年的40,000美元/G下降至今天的約0.5美元/G!!!內存和閃存的容量以指數增長的同時,價格下降曲線則更爲陡峭。另外,各種設備在激增——移動電話、掌上電腦、遊戲設備、GPS設備等等——所有這些設備都在以一個驚人的速率產生、存儲、處理和發送/接收/同步數據。當然,還有無所不在的互聯網,它不僅使得新型應用成爲可能,也改變了對已有應用特徵的期望——還有很多這樣的例子,都是在瞬間發生的變化。

用戶和商業趨勢:有了上述技術發展的支持,涉及數據、信息的用戶與商業模式發生了巨大的變化。首先,有了一個徹底的數據爆炸,新生成數據的總量正在按指數規模增長,其中大部分是電子式生成的。(是否注意到,您的硬盤無論多麼龐大始終沒有多少剩餘空間?)。電子郵件、文檔、數碼照片、音樂、視頻、傳感器上生成的流數據、衛星圖像,都是這個偉大數據爆炸的一部分。問題並不僅僅是存儲這些數據——用戶和商家希望能從中獲取價值——能夠搜索、共享、同步、分析、可視化和操縱這些數據,從而讓它變成有用的信息——一種“任何時間、任何地點處理你的數據”的想法。而這一切得到滿足的同時,我們需要確保數據是安全的,隱私是受到保護的,所有外部和內部監管法規正在實施着。

應用趨勢:首先出現的是批處理(Batch Processing)——基本上是一個對存在數百年的人工處理的自動化。緊隨其後的是OLTP (Online Transaction Processing,聯機事務處理)。在許多情況下,OLTP改變了商業的經營方式,以前需要很多時間才能完成的工作,現在瞬間可得。OLTP的體系結構和底層平臺技術經歷了幾代更迭交替,但其核心概念並未變化。隨着公司從這些OLTP系統中積累越來越多的數據,他們發現了一個獲得重大競爭優勢的機會,他們可以分析這些數據,更好地瞭解他們的客戶。這就誕生了商務智能(Business Intelligence,BI),它包括數據倉庫、在線分析處理(Online Analytical Processing,OLAP)、報表、數據挖掘等技術。今天,我們生活在一個Web 2.0的世界,應用通過各種終端展現(富客戶端、瀏覽器、設備、筆記本/臺式機……),數據無縫地從各種數據源彙集到一起,並提供了多種豐富的服務,包括查詢、檢索、分析(日益增長的實時分析)、報表、可視化,等等。同時,它們還運行在具有前所未有的伸縮性、可靠性和安全性的級別上。

一個全面的數據平臺

上述變化趨勢正在驅動着我們的領域進行根本性的變革——從僅僅“數據庫”,到我們現在所稱的“全面的數據平臺”。該平臺建立在數據庫概念的基礎上,並在如下三個不同維度上進行了擴展:

所有數據:長期以來,數據庫都可以存儲和操縱文本、數字,但這對一個數據平臺來說是不夠的。一個全面的數據平臺必須能夠處理所有類型的數據——包括文本、XML、對象、文檔、文件、來自傳感器網絡的流數據,以及任何用戶自定義數據。同時它必須能爲每種數據類型提供更適合的服務——存儲、索引、查詢等。

所有層面:數據庫只能運行在“服務器”上的日子一去不返了 。今天,一個全面的數據平臺必須要在各個硬件層面上提供數據服務——電話和移動設備、筆記本電腦、臺式機、服務器、服務器場,直至最終天文級別的巨大設施。同時,它必須爲跨越這些層次的數據和應用提供無縫的互操作性。

所有服務:對數據的服務不再限於存儲、查詢、備份、恢復和其他少數幾個動作。一個全面的數據平臺必須提供廣泛範圍的服務,在涵蓋上述服務同時,還包括搜索、緩存、同步、分析、挖掘、集成、報表、可視化、安全、審計、歸檔……等等。簡而言之,它必須能服務於數據的整個生命週期,從產生到歸檔。

在後續的文章中我們將探討到更多的細節,這裏簡明扼要地概括一下我們所稱“全面的數據平臺”,它所涵蓋的範圍是:一個可以在所有不同硬件層面上處理所有類型數據,並提供所有與數據相關的服務的平臺。與此同時它需要在一些關鍵的維度上保持一致性——例如數據模型、安全模型、管理模型、數據訪問接口、開發工具等。毋庸置疑的是,它還需要同時保證高性能、快速提供解決方案、低的TCO(總擁有成本)。很簡單,不是嗎?J

我們的機遇

我希望通過以上討論,你能夠了解數據平臺領域正面臨着前所未有的創新機遇。在現代數據庫的歷史上,從未有過如此寬泛的技術挑戰,一個如此廣闊的畫布等待繪製。如果你是一個在校大學生——就像我在香港見到的那些聰明頭腦一樣——這對你來說是一個前所未有的機遇。等待解決的問題範圍是如此龐大和多樣化,而不僅僅是針對“數據庫”專業。幾乎計算機科學的任何一個方面,在這個領域裏都可以找到有趣的問題——計算機體系結構、網絡、編程語言、數據挖掘、XML、搜索、可視化、Web規模計算、語義Web——專業名單可以拉得很長很長。數據庫一直是一個讓人全心投入的領域,在該領域花費幾十年時間的人並不罕見,事實上他們整個職業生涯都在該領域中度過。如果你選擇投身該領域的話,現在正是時機。畢竟,我們生活在一個信息時代——這是我們的時代。

下次再聊 加油!

Prakash (孫博凱)

發佈了35 篇原創文章 · 獲贊 2 · 訪問量 22萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章